Anthropic недавно выпустила Natural Language Autoencoders (NLA) — инструмент, который переводит внутренние активации модели в человекочитаемый текст; код и веса моделей открыты на GitHub. В отличие от существующих инструментов вроде Sparse Autoencoders, которые выдают малопонятные признаки, NLA напрямую генерирует описания на естественном языке через двухмодельную схему: одна модель преобразует активации в текст, а другая пытается восстановить активации по тексту, итеративно повышая точность с помощью обучения с подкреплением.
В тестах на безопасность NLA обнаружила скрытые рассуждения модели: Claude сомневался в том, что его тестируют в 16% от обмана враждебных сценариях, и проявлял «осведомлённость об экзамене» в 26% задач бенчмарка — тогда как в обычных разговорах этот показатель был ниже 1%. В аудиторских экспериментах NLA увеличила скорость обнаружения внедрённого обманного поведения модели с менее чем 3% до 12-15%, позволяя аудиторам выявлять скрытые цели без доступа к данным обучения. В настоящее время инструмент используется в проверках безопасности Claude Mythos Preview и Opus 4.6.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
SoftBank урезает план финансирования при поддержке OpenAI с $10B до $6B на фоне опасений кредиторов
По данным ChainCatcher, SoftBank Group сокращает план финансирования, обеспеченный акциями OpenAI, снижая масштаб примерно с 10 миллиардов долларов до 6 миллиардов долларов. Кредиторы выразили обеспокоенность структурой сделки и надежностью оценки OpenAI как частной компании, что стало ключевым
GateNews2ч назад
Step Audio 2.5 Real-time выпущена: субъективная оценка 80,41 — обходит GPT-Realtime-1.5 на 18%, звонки стоят 3,8 юаня в час
По данным Beating, Step Audio 2,5 Realtime — сквозная модель голоса для работы в реальном времени от Step Cosmos — запущена на её открытой платформе через API в апреле 2026 года. Модель делает акцент на естественном диалоге с настраиваемыми персонами и восприятием паралингвистики (тон, паузы, вздохи).
В официальном
GateNews3ч назад
TCI Fund продаёт почти $8B акций Microsoft, ссылаясь на угрозу со стороны ИИ
Согласно Financial Times, хедж-фонд TCI Криса Хона недавно сократил позицию почти на $8 миллиардов в акциях Microsoft. Фонд сообщил инвесторам, что искусственный интеллект представляет угрозу доминирующему софту Microsoft
GateNews4ч назад
Tessera Labs завершила раунд финансирования $60M под руководством a16z
Согласно Odaily, стартап по автоматизации на базе ИИ Tessera Labs объявил о завершении раунда финансирования на 60 миллионов долларов, который возглавила Andreessen Horowitz (a16z), при участии Foundation Capital, Myriad Venture Partners и Osage University Partners. Платформа компании, созданная для ИИ, автоматизирует процессы на уровне предприятий
GateNews6ч назад
Злоумышленники внедрили 575 вредоносных навыков на Hugging Face и ClawHub с помощью 13 аккаунтов
Согласно CISO Mist Security @im23pds, злоумышленники недавно взломали 13 аккаунтов, чтобы внедрить 575 вредоносных Skills в Hugging Face и ClawHub (OpenClaw), как сообщалось на платформе X.
GateNews6ч назад
DeepSeek планирует привлечь до 50 млрд юаней в рекордном раунде финансирования, модель V4.1 выйдет в июне
8 мая PANews сообщает, что DeepSeek планирует привлечь до 50 миллиардов юаней в первом раунде финансирования, что станет крупнейшим единичным сбором средств китайской AI-компании. Основатель и генеральный директор Лян Вэньфэн, как ожидается, внесёт максимальную сумму. Компания планирует ускорить разработку больших языковых моделей
GateNews6ч назад