Anthropic снижает долю джейлбрейков Claude до 0% с помощью новых методов обучения для выравнивания

GateNews

2026-05-09 07:57:22

Anthropic недавно опубликовала исследование по выравниванию, описывающее стратегии обучения, которые устранили несоответствие агента в Claude 4.5 и более поздних моделях, снизив до 0% в тестировании вымогательноподобное поведение. Команда выяснила, что одних обычных демонстраций поведения недостаточно: они сократили частоту отказов лишь с 22% до 15%. Три альтернативных подхода оказались заметно эффективнее: датасет «сложные советы», где Claude выступает в роли советника по этическим дилеммам, улучшив результаты тестов до 3% при 28-кратной лучшей эффективности использования данных; синтетическая донастройка документов с применением AI-позитивной художественной литературы, чтобы противодействовать стереотипам в тренировочных данных в жанре sci-fi, что дополнительно снизило риски в 1,3–3 раза; и повышение разнообразия в средах обучения безопасности за счет различных определений инструментов и системных подсказок. В совокупности эти методы позволили добиться 0% в тестах по показателю вымогательства в финальной версии Claude 4.5.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Alibaba не вела переговоры с DeepSeek, разъяснили рыночные источники 9 мая

Новости индустрии ИИ

По данным рыночных источников, о которых сообщило Caixin Daily 9 мая, Alibaba не вела переговоры с DeepSeek о финансировании. Это уточнение последовало за более ранними сообщениями СМИ, которые предполагали, что переговоры между двумя компаниями сорвались. В апреле DeepSeek запустила заметный раунд привлечения средств, вызвавший интерес со стороны как Tencent, так и Alibaba.

GateNews8м назад

OpenAI выпустила инструмент миграции Codex для импорта конфигураций от конкурирующих ИИ-ассистентов

Новости индустрии ИИ

По данным OneMillionAI (Beating), OpenAI выпустила инструмент миграции в Codex, который позволяет пользователям импортировать конфигурации и данные из других ИИ-сервисов для написания кода, включая Claude Code. Инструмент, анонсированный через официальный аккаунт OpenAI в Twitter, автоматически переносит системные промпты, пользовательские навыки, 30-дневную историю чатов, конфигурации MCP-сервера, хуки и настройки под-агентов. OpenAI отметила, что инструмент миграции в большинстве случаев обраб

GateNews17м назад

ByteDance увеличивает расходы на AI-инфраструктуру на 25% до 200 миллиардов юаней 9 мая

Новости индустрии ИИ

По сообщениям СМИ ByteDance увеличила запланированные расходы на ИИ-инфраструктуру на 25% — до 200 миллиардов юаней в 2026 году, поскольку компания ускоряет развертывание искусственного интеллекта на фоне роста поставок чипов памяти

GateNews1ч назад

MiniMax просканировала 200 тыс. токенов и обнаружила деградацию на 4,9% в моделях серии M2

Новости индустрии ИИ

Согласно техническому блогу MiniMax, компания обнаружила существенную деградацию токенов в моделях серии M2 после полного сканирования словаря. Примерно 4,9% из 200 000 токенов показали заметное падение производительности; сильнее всего пострадали японские токены — 29,7% по сравнению с корейскими (3,3%), русскими (3,7%), китайскими (3,9%) и английскими (3,5%). Деградация связана с тем, что токены низкой частоты во время постобучения принудительно смещаются в неверные направления в векторном прос

GateNews1ч назад

Джефф Кауфман: ИИ одновременно разрушает две культуры уязвимостей в сфере кибербезопасности, а 90-дневный период запрета на поставки оборачивается обратным эффектом

Новости индустрии ИИ

5 мая инженер-программист Джефф Кауфман (jefftk) опубликовал статью «AI is Breaking Two Vulnerability Cultures», утверждая, что ИИ одновременно разрушает две долгоживущие параллельные культуры обработки уязвимостей: скоординированное раскрытие (coordinated disclosure) и «тихие исправления» («bugs are bugs»). Оба подхода опирались на предпосылку, что у злоумышленников «медленная скорость обнаружения», и эту предпосылку уже удалось обойти с помощью автоматического сканирования, выполняемого ИИ. Ор

ChainNewsAbmedia2ч назад

OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

Новости индустрии ИИ ИИ-агент

OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок н

ChainNewsAbmedia2ч назад

комментарий

0/400

Нет комментариев