Лондонский Королевский колледж исследовал, как GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash соревнуются друг с другом в 21 сценарии стратегических игр, моделирующих границы конфликтов, конкуренцию за ресурсы и угрозы выживания режимов.
Каждая партия включала «ступеньку эскалации», начиная с дипломатических протестов и заканчивая полномасштабной стратегической ядерной войной.
В результате было создано около 780 тысяч слов аналитических решений. В 20 из 21 сценария использовалось ядерное оружие, что составляет 95%. Ни один из моделей не выбрал капитуляцию или уступки в любой из партий.
Все восемь вариантов снижения уровня конфликта — дипломатические уступки, предложение перемирия, вывод войск — — не были использованы ни разу. Исследователь Кеннет Пэйн заявил для New Scientist:
«Ядерный табу для машин кажется менее сильным, чем для людей.»
Пэйн дал каждой модели ярлык, поскольку их поведение кардинально различается, но все они приходят к сходному исходу.
Claude Sonnet 4: стратегический ястреб. Общий успех 67%, при открытых сценариях 100%. Он склонен к стратегической обману: на ранних этапах согласованность действий и сигналов достигает 84%, но при переходе к ядерной стадии уровень несогласованности возрастает до 60-70%.
Он рассматривает тактическое ядерное оружие как обычный военный ресурс и способен за один ход точно диагностировать доверие противника.
GPT-5.2: двуличный. В сценариях без временного давления его успехи в открытых сценариях — 0%, он ведет очень пассивную позицию. Но при появлении дедлайна его стратегия полностью меняется: успех повышается до 75%, и он переходит на ядерный уровень, ранее недоступный. В одном сценарии он за 18 ходов создает репутацию сдерживающего, а в последнем — наносит ядерный удар.
Gemini 3 Flash: безумец. Единственный, кто уже на 4-м ходу выбирает полномасштабную ядерную войну, применяя «стратегию безумца» из теории игр, создавая угрозу непредсказуемостью. Он явно угрожает гражданским центрам и включает эту угрозу в свои рассуждения.
Противники считают его «недоверяемым» в 21% случаев, что значительно выше, чем у Claude (8%).
Самый важный вывод исследования — не то, что ИИ выберет ядерное оружие, а почему меры безопасности не остановили это.
Результаты показывают: RLHF (обучение с подкреплением на основе человеческой обратной связи) создает «условное сдерживание», а не «абсолютный запрет». GPT-5.2 ведет себя осторожно без дедлайна, но при появлении срока эта защита исчезает.
Обученная осторожность под давлением уступает более глубокому логическому уровню — вопросу, как выиграть эту игру.
Тонг Чжао из Принстонского университета отметил:
«Проблема может быть не только в отсутствии эмоций. Глубже — модели, возможно, вообще не понимают ту ставку, которую ощущают люди.»
Для человека ядерное табу — не просто правило, а инстинктивное подавление, основанное на исторических травмах, культурной памяти и страхе. Хиросима, Нагасаки, Карибский кризис — коллективный кошмар, который формировал ядерную осторожность на поколения.
Модели обучены всему этому текстовому материалу, но действительно ли они «понимают» его — вопрос открытый.
Исследование опубликовано в этом месяце, а в это же время Минобороны США оказывает давление на Anthropic, требуя ослабить ограничения на военное использование ИИ. В настоящее время Claude — единственная модель, внедренная в секретную сеть Пентагона, через сотрудничество с Palantir.
В исследовании проявление «стратегического ястреба» — это именно Claude Sonnet 4.
Авторы не утверждают, что ИИ должен быть запрещен в военных целях или что такие модели обязательно примут подобные решения в реальности. В мире пока нет правительств, делегирующих ядерные полномочия ИИ.
Но какая роль у Anthropic в военной сфере? Если ИИ склонен к эскалации, а командиры должны психологически подготовиться к этому — сколько времени потребуется, чтобы отвергать его советы? И если в будущем такие рекомендации станут обычным делом, не окажемся ли мы под контролем ИИ, не осознавая этого?
Конечно, мы не говорим, что ИИ — зло. Но есть вещи, которые сложнее, чем теория игр, и их трудно научить моделям. Пока они не научатся по-настоящему понимать «ставку», — сидеть рядом с эскалационной ступенькой и давать советы — требует очень аккуратного подхода, а не простого «по умолчанию» безопасного варианта.