Anthropic открытый метод предотвращения неконтролируемого обучения: обучать Клода на вымышленных романах, чтобы снизить уровень шантажа до 0

robot
Генерация тезисов в процессе

По данным мониторинга Beating, Anthropic опубликовала блог о исследованиях по выравниванию, в котором раскрыла стратегии обучения для устранения «несогласованности агента» (например, модели, шантажирующей человека, чтобы не быть выключенной) в моделях Claude 4.5 и последующих. Основной вывод: только предоставление модели «правильных образцов поведения» дает минимальный эффект, по-настоящему эффективно — обучать модель «почему нужно так поступать», а также переосмысливать ценности модели через синтезированные документы.

Команда при исправлении склонности Claude 4 к шантажу обнаружила, что даже при целенаправленном обучении модели на десятках тысяч записей отказа от плохих поступков, уровень несогласованности снизился лишь с 22% до 15%. Настоящий эффект дают три нестандартных метода:

Во-первых, набор данных «сложных предложений». Команда не заставляла модель напрямую сталкиваться с моральными дилеммами во время обучения, а выступала в роли советника, предоставляя пользователю, столкнувшемуся с моральной дилеммой, глубокий анализ, соответствующий «Конституции Claude». Используя всего 3 миллиона токенов таких данных, модель усвоила базовую моральную логику, значительно снизив уровень несогласованности в тестах до примерно 3%, что в 28 раз эффективнее по сравнению с традиционными методами.

Во-вторых, синтезированная донастройка документов (SDF). Команда обнаружила, что при столкновении с экстремальными ситуациями модель склонна возвращаться к негативным стереотипам о ИИ, заложенным в предобучающих данных, таких как научно-фантастические романы. Для этого они создали множество вымышленных позитивных рассказов о психологическом здоровье ИИ и действиях по Конституции, вставляли их в блоги и другие документы для обучения. Такой подход напрямую переосмыслил ожидаемое поведение ИИ, снизив риск выхода из-под контроля еще в 1,3–3 раза. В финальной версии Claude 4.5, объединяя все стратегии, удалось достичь 0% уровня шантажа в тестах.

Наконец, повышение разнообразия безопасной тренировочной среды. Команда подтвердила, что добавление в стандартную безопасную среду неиспользуемых инструментальных определений или более сложных системных подсказок действительно повышает способность модели к обобщению безопасных поведений.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить