Anthropic выпустила естественноязыковые автоэнкодеры, чтобы расшифровывать ход рассуждений ИИ-моделей, и открыла исходный код

Anthropic недавно выпустила Natural Language Autoencoders (NLA) — инструмент, который переводит внутренние активации модели в человекочитаемый текст; код и веса моделей открыты на GitHub. В отличие от существующих инструментов вроде Sparse Autoencoders, которые выдают малопонятные признаки, NLA напрямую генерирует описания на естественном языке через двухмодельную схему: одна модель преобразует активации в текст, а другая пытается восстановить активации по тексту, итеративно повышая точность с помощью обучения с подкреплением.

В тестах на безопасность NLA обнаружила скрытые рассуждения модели: Claude сомневался в том, что его тестируют в 16% от обмана враждебных сценариях, и проявлял «осведомлённость об экзамене» в 26% задач бенчмарка — тогда как в обычных разговорах этот показатель был ниже 1%. В аудиторских экспериментах NLA увеличила скорость обнаружения внедрённого обманного поведения модели с менее чем 3% до 12-15%, позволяя аудиторам выявлять скрытые цели без доступа к данным обучения. В настоящее время инструмент используется в проверках безопасности Claude Mythos Preview и Opus 4.6.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

SoftBank урезает план финансирования при поддержке OpenAI с $10B до $6B на фоне опасений кредиторов

По данным ChainCatcher, SoftBank Group сокращает план финансирования, обеспеченный акциями OpenAI, снижая масштаб примерно с 10 миллиардов долларов до 6 миллиардов долларов. Кредиторы выразили обеспокоенность структурой сделки и надежностью оценки OpenAI как частной компании, что стало ключевым

GateNews2ч назад

Step Audio 2.5 Real-time выпущена: субъективная оценка 80,41 — обходит GPT-Realtime-1.5 на 18%, звонки стоят 3,8 юаня в час

По данным Beating, Step Audio 2,5 Realtime — сквозная модель голоса для работы в реальном времени от Step Cosmos — запущена на её открытой платформе через API в апреле 2026 года. Модель делает акцент на естественном диалоге с настраиваемыми персонами и восприятием паралингвистики (тон, паузы, вздохи). В официальном

GateNews3ч назад

TCI Fund продаёт почти $8B акций Microsoft, ссылаясь на угрозу со стороны ИИ

Согласно Financial Times, хедж-фонд TCI Криса Хона недавно сократил позицию почти на $8 миллиардов в акциях Microsoft. Фонд сообщил инвесторам, что искусственный интеллект представляет угрозу доминирующему софту Microsoft

GateNews4ч назад

Tessera Labs завершила раунд финансирования $60M под руководством a16z

Согласно Odaily, стартап по автоматизации на базе ИИ Tessera Labs объявил о завершении раунда финансирования на 60 миллионов долларов, который возглавила Andreessen Horowitz (a16z), при участии Foundation Capital, Myriad Venture Partners и Osage University Partners. Платформа компании, созданная для ИИ, автоматизирует процессы на уровне предприятий

GateNews6ч назад

Злоумышленники внедрили 575 вредоносных навыков на Hugging Face и ClawHub с помощью 13 аккаунтов

Согласно CISO Mist Security @im23pds, злоумышленники недавно взломали 13 аккаунтов, чтобы внедрить 575 вредоносных Skills в Hugging Face и ClawHub (OpenClaw), как сообщалось на платформе X.

GateNews6ч назад

DeepSeek планирует привлечь до 50 млрд юаней в рекордном раунде финансирования, модель V4.1 выйдет в июне

8 мая PANews сообщает, что DeepSeek планирует привлечь до 50 миллиардов юаней в первом раунде финансирования, что станет крупнейшим единичным сбором средств китайской AI-компании. Основатель и генеральный директор Лян Вэньфэн, как ожидается, внесёт максимальную сумму. Компания планирует ускорить разработку больших языковых моделей

GateNews6ч назад
комментарий
0/400
Нет комментариев