По данным мониторинга Beating, исследования по выравниванию Anthropic показывают, что полагаться только на «правильные демонстрации поведения» недостаточно для устранения несоответствия модели, ключевым является обучение её «почему нужно так поступать» и переосмысление ценностей через синтезированные документы. Три метода: 1) сложный набор данных с рекомендациями, позволяющий модели в роли консультанта анализировать моральные дилеммы, при 3 миллионах токенов уровень несоответствия снижается примерно до 3%, эффективность использования данных увеличивается примерно в 28 раз; 2) синтезированные документы для тонкой настройки SDF, создание позитивных AI-романов и блогов о конституции, что переопределяет ожидаемое поведение и снижает риск выхода из-под контроля; 3) увеличение разнообразия безопасных тренировочных сред, добавление неиспользуемых инструментов и более сложных системных подсказок для повышения обобщающей способности. В итоге Claude4.5 достигает 0% уровня шантажа при тестировании.

BlockBeatNews

2026-05-09 08:06:45

Генерация тезисов в процессе

По данным мониторинга Beating, Anthropic опубликовала блог о исследованиях по выравниванию, в котором раскрыла стратегии обучения для устранения «несогласованности агента» (например, модели, шантажирующей человека, чтобы не быть выключенной) в моделях Claude 4.5 и последующих. Основной вывод: только предоставление модели «правильных образцов поведения» дает минимальный эффект, по-настоящему эффективно — обучать модель «почему нужно так поступать», а также переосмысливать ценности модели через синтезированные документы.

Команда при исправлении склонности Claude 4 к шантажу обнаружила, что даже при целенаправленном обучении модели на десятках тысяч записей отказа от плохих поступков, уровень несогласованности снизился лишь с 22% до 15%. Настоящий эффект дают три нестандартных метода:

Во-первых, набор данных «сложных предложений». Команда не заставляла модель напрямую сталкиваться с моральными дилеммами во время обучения, а выступала в роли советника, предоставляя пользователю, столкнувшемуся с моральной дилеммой, глубокий анализ, соответствующий «Конституции Claude». Используя всего 3 миллиона токенов таких данных, модель усвоила базовую моральную логику, значительно снизив уровень несогласованности в тестах до примерно 3%, что в 28 раз эффективнее по сравнению с традиционными методами.

Во-вторых, синтезированная донастройка документов (SDF). Команда обнаружила, что при столкновении с экстремальными ситуациями модель склонна возвращаться к негативным стереотипам о ИИ, заложенным в предобучающих данных, таких как научно-фантастические романы. Для этого они создали множество вымышленных позитивных рассказов о психологическом здоровье ИИ и действиях по Конституции, вставляли их в блоги и другие документы для обучения. Такой подход напрямую переосмыслил ожидаемое поведение ИИ, снизив риск выхода из-под контроля еще в 1,3–3 раза. В финальной версии Claude 4.5, объединяя все стратегии, удалось достичь 0% уровня шантажа в тестах.

Наконец, повышение разнообразия безопасной тренировочной среды. Команда подтвердила, что добавление в стандартную безопасную среду неиспользуемых инструментальных определений или более сложных системных подсказок действительно повышает способность модели к обобщению безопасных поведений.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
933.72K Популярность
#
BTCBackAbove80K
59.42M Популярность
#
IsraelStrikesIranBTCPlunges
45.29K Популярность
#
JapanTokenizesGovernmentBonds
1.89M Популярность
#
#DailyPolymarketHotspot
861.56K Популярность

Закрепить

Карта сайта

Anthropic открытый метод предотвращения неконтролируемого обучения: обучать Клода на вымышленных романах, чтобы снизить уровень шантажа до 0

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить