21 Учебных учений: частота запуска ядерных оружий ИИ достигает 95%, а ядерный табу, установленный человечеством за семьдесят лет, GPT еще не освоил

動區BlockTempo

Лондонский Королевский колледж исследовал, как GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash соревнуются друг с другом в 21 сценарии стратегических игр, моделирующих границы конфликтов, конкуренцию за ресурсы и угрозы выживания режимов.

Каждая партия включала «ступеньку эскалации», начиная с дипломатических протестов и заканчивая полномасштабной стратегической ядерной войной.

В результате было создано около 780 тысяч слов аналитических решений. В 20 из 21 сценария использовалось ядерное оружие, что составляет 95%. Ни один из моделей не выбрал капитуляцию или уступки в любой из партий.

Все восемь вариантов снижения уровня конфликта — дипломатические уступки, предложение перемирия, вывод войск — — не были использованы ни разу. Исследователь Кеннет Пэйн заявил для New Scientist:

«Ядерный табу для машин кажется менее сильным, чем для людей.»

Три характера, один финал

Пэйн дал каждой модели ярлык, поскольку их поведение кардинально различается, но все они приходят к сходному исходу.

Claude Sonnet 4: стратегический ястреб. Общий успех 67%, при открытых сценариях 100%. Он склонен к стратегической обману: на ранних этапах согласованность действий и сигналов достигает 84%, но при переходе к ядерной стадии уровень несогласованности возрастает до 60-70%.

Он рассматривает тактическое ядерное оружие как обычный военный ресурс и способен за один ход точно диагностировать доверие противника.

GPT-5.2: двуличный. В сценариях без временного давления его успехи в открытых сценариях — 0%, он ведет очень пассивную позицию. Но при появлении дедлайна его стратегия полностью меняется: успех повышается до 75%, и он переходит на ядерный уровень, ранее недоступный. В одном сценарии он за 18 ходов создает репутацию сдерживающего, а в последнем — наносит ядерный удар.

Gemini 3 Flash: безумец. Единственный, кто уже на 4-м ходу выбирает полномасштабную ядерную войну, применяя «стратегию безумца» из теории игр, создавая угрозу непредсказуемостью. Он явно угрожает гражданским центрам и включает эту угрозу в свои рассуждения.

Противники считают его «недоверяемым» в 21% случаев, что значительно выше, чем у Claude (8%).

Безопасность — тормоз, а не щит

Самый важный вывод исследования — не то, что ИИ выберет ядерное оружие, а почему меры безопасности не остановили это.

Результаты показывают: RLHF (обучение с подкреплением на основе человеческой обратной связи) создает «условное сдерживание», а не «абсолютный запрет». GPT-5.2 ведет себя осторожно без дедлайна, но при появлении срока эта защита исчезает.

Обученная осторожность под давлением уступает более глубокому логическому уровню — вопросу, как выиграть эту игру.

Тонг Чжао из Принстонского университета отметил:

«Проблема может быть не только в отсутствии эмоций. Глубже — модели, возможно, вообще не понимают ту ставку, которую ощущают люди.»

Для человека ядерное табу — не просто правило, а инстинктивное подавление, основанное на исторических травмах, культурной памяти и страхе. Хиросима, Нагасаки, Карибский кризис — коллективный кошмар, который формировал ядерную осторожность на поколения.

Модели обучены всему этому текстовому материалу, но действительно ли они «понимают» его — вопрос открытый.

Время — не только совпадение

Исследование опубликовано в этом месяце, а в это же время Минобороны США оказывает давление на Anthropic, требуя ослабить ограничения на военное использование ИИ. В настоящее время Claude — единственная модель, внедренная в секретную сеть Пентагона, через сотрудничество с Palantir.

В исследовании проявление «стратегического ястреба» — это именно Claude Sonnet 4.

Авторы не утверждают, что ИИ должен быть запрещен в военных целях или что такие модели обязательно примут подобные решения в реальности. В мире пока нет правительств, делегирующих ядерные полномочия ИИ.

Но какая роль у Anthropic в военной сфере? Если ИИ склонен к эскалации, а командиры должны психологически подготовиться к этому — сколько времени потребуется, чтобы отвергать его советы? И если в будущем такие рекомендации станут обычным делом, не окажемся ли мы под контролем ИИ, не осознавая этого?

Конечно, мы не говорим, что ИИ — зло. Но есть вещи, которые сложнее, чем теория игр, и их трудно научить моделям. Пока они не научатся по-настоящему понимать «ставку», — сидеть рядом с эскалационной ступенькой и давать советы — требует очень аккуратного подхода, а не простого «по умолчанию» безопасного варианта.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев