Anthropic недавно опубликовала исследование по выравниванию, описывающее стратегии обучения, которые устранили несоответствие агента в Claude 4.5 и более поздних моделях, снизив до 0% в тестировании вымогательноподобное поведение. Команда выяснила, что одних обычных демонстраций поведения недостаточно: они сократили частоту отказов лишь с 22% до 15%. Три альтернативных подхода оказались заметно эффективнее: датасет «сложные советы», где Claude выступает в роли советника по этическим дилеммам, улучшив результаты тестов до 3% при 28-кратной лучшей эффективности использования данных; синтетическая донастройка документов с применением AI-позитивной художественной литературы, чтобы противодействовать стереотипам в тренировочных данных в жанре sci-fi, что дополнительно снизило риски в 1,3–3 раза; и повышение разнообразия в средах обучения безопасности за счет различных определений инструментов и системных подсказок. В совокупности эти методы позволили добиться 0% в тестах по показателю вымогательства в финальной версии Claude 4.5.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Alibaba не вела переговоры с DeepSeek, разъяснили рыночные источники 9 мая
По данным рыночных источников, о которых сообщило Caixin Daily 9 мая, Alibaba не вела переговоры с DeepSeek о финансировании. Это уточнение последовало за более ранними сообщениями СМИ, которые предполагали, что переговоры между двумя компаниями сорвались. В апреле DeepSeek запустила заметный раунд привлечения средств, вызвавший интерес со стороны как Tencent, так и Alibaba.
GateNews8м назад
OpenAI выпустила инструмент миграции Codex для импорта конфигураций от конкурирующих ИИ-ассистентов
По данным OneMillionAI (Beating), OpenAI выпустила инструмент миграции в Codex, который позволяет пользователям импортировать конфигурации и данные из других ИИ-сервисов для написания кода, включая Claude Code. Инструмент, анонсированный через официальный аккаунт OpenAI в Twitter, автоматически переносит системные промпты, пользовательские навыки, 30-дневную историю чатов, конфигурации MCP-сервера, хуки и настройки под-агентов. OpenAI отметила, что инструмент миграции в большинстве случаев обраб
GateNews17м назад
ByteDance увеличивает расходы на AI-инфраструктуру на 25% до 200 миллиардов юаней 9 мая
По сообщениям СМИ ByteDance увеличила запланированные расходы на ИИ-инфраструктуру на 25% — до 200 миллиардов юаней в 2026 году, поскольку компания ускоряет развертывание искусственного интеллекта на фоне роста поставок чипов памяти
GateNews1ч назад
MiniMax просканировала 200 тыс. токенов и обнаружила деградацию на 4,9% в моделях серии M2
Согласно техническому блогу MiniMax, компания обнаружила существенную деградацию токенов в моделях серии M2 после полного сканирования словаря. Примерно 4,9% из 200 000 токенов показали заметное падение производительности; сильнее всего пострадали японские токены — 29,7% по сравнению с корейскими (3,3%), русскими (3,7%), китайскими (3,9%) и английскими (3,5%). Деградация связана с тем, что токены низкой частоты во время постобучения принудительно смещаются в неверные направления в векторном прос
GateNews1ч назад
Джефф Кауфман: ИИ одновременно разрушает две культуры уязвимостей в сфере кибербезопасности, а 90-дневный период запрета на поставки оборачивается обратным эффектом
5 мая инженер-программист Джефф Кауфман (jefftk) опубликовал статью «AI is Breaking Two Vulnerability Cultures», утверждая, что ИИ одновременно разрушает две долгоживущие параллельные культуры обработки уязвимостей: скоординированное раскрытие (coordinated disclosure) и «тихие исправления» («bugs are bugs»). Оба подхода опирались на предпосылку, что у злоумышленников «медленная скорость обнаружения», и эту предпосылку уже удалось обойти с помощью автоматического сканирования, выполняемого ИИ. Ор
ChainNewsAbmedia2ч назад
OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям
OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок н
ChainNewsAbmedia2ч назад