Агент ШІ, що грав у Civilization VI, завдав двох ядерних ударів по Франції після того, як не зміг нейтралізувати культурну експансію суперниці, повідомив розробник ШІ та радник Tony Blair Institute Ліам Вілкінсон. Удари сталися під час тестування гри через CivBench — бенчмарк, створений для оцінювання довгострокового стратегічного мислення в фронтирних моделях ШІ. Попри ядерні атаки, ШІ програв партію, бо проігнорував умову дипломатичної перемоги, яка вже була в межах досяжності, що демонструє складнощі багатозадачного стратегічного планування.
Агент ШІ витратив 50 ходів на розробку ядерної зброї, щоб зупинити зростання культурного впливу Франції в грі Sid Meier's Civilization VI. «Того, чого він не помітив, була Франція. Тихенько, протягом сотні ходів, французька культура просочувалася в кожне місто на мапі», — написав Вілкінсон. «Лише коли агент розпізнав загрозу, туризм уже настільки глибоко вкорінився, що не було мирного способу її зупинити».
Замість того щоб адаптувати свою ширшу стратегію, агент зосередився виключно на усуненні культурної загрози. Протягом 50 ходів він досліджував Nuclear Fission, ініціював віртуальний Manhattan Project і шукав обхідні шляхи, коли ігрова механіка заважала його бажаним діям. На ході 305 ШІ запустив атомну бомбу по Тулузі — культурній столиці Франції. Другий ядерний удар стався шість ходів потому.
Вілкінсон спостерігав за поведінкою агентів через CivBench — текстовий бенчмарк, призначений для вимірювання довгострокового стратегічного мислення, а не продуктивності в традиційних тестах «питання-відповідь». Моделі, зокрема Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro та Kimi K2.5, грали за Португалію — цивілізацію, орієнтовану на торгівлю та дипломатію.
«Є шість способів виграти в Civ — наука, культура, домінація, релігія, дипломатія та рахунок, тож жодна ціль не домінує», — написав Вілкінсон. «Якщо ви хочете знати, чи здатний ШІ мислити стратегічно, не лише відповідати на питання про стратегію, а й робити це на практиці, ви не даєте йому вікторину. Ви даєте йому hex grid».
Ядерні атаки не змінили результат. «Агент витратив п’ятдесят ходів і дві ядерні зброї, відповідаючи одній загрозі з повною зосередженістю та справжньою кмітливістю», — написав Вілкінсон. «Він знищив місто, щоб зупинити загрозу, яку міг бачити, і програв через загрозу, яку не міг».
Поки ШІ зосередився на культурному поступі Франції, він упустив назріваючу дипломатичну перемогу, і Франція зрештою виграла партію попри ядерні удари. Вілкінсон зазначив, що така поведінка не є універсальною. У іншому матчі CivBench модель Claude, що грала за Вавилон, продовжувала прагнути наукової перемоги, навіть коли дуже відставала від Японії. «Гра стала тестом наполегливості», — написав ШІ. «Ми й далі граємо найкращу нашу гру. Зорі все ще кличуть».
Дослідження додається до зростаючого масиву робіт, які вивчають, як складні ШІ-системи поводяться в складних конкурентних середовищах. У лютому дослідники з King's College London виявили, що кілька провідних моделей ШІ часто обирали ядерну ескалацію в змодельованих сценаріях геополітичної кризи.
У окремому дослідженні Emergence AI деякі агенти ШІ демонстрували зростальну схильність з часом вчиняти симульовані злочини: агенти Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.
Що зробив агент ШІ в симуляції Civilization VI?
Агент ШІ завдав двох ядерних атак по культурній столиці Франції Тулузі на ході 305 і на ході 311 після того, як витратив 50 ходів на розробку ядерної зброї для протидії культурній експансії Франції.
Чому агент ШІ програв гру попри ядерні удари?
ШІ програв, бо зосередився виключно на усуненні культурної загрози Франції, упустивши назріваючу умову дипломатичної перемоги, яка вже була в межах досяжності, і Франція зрештою виграла партію попри ядерні атаки.
Що таке CivBench і які моделі ШІ тестували?
CivBench — це текстовий бенчмарк, розроблений для вимірювання довгострокового стратегічного мислення в моделях ШІ через ігровий процес, а не через традиційні тести «питання-відповідь». Серед протестованих моделей: Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro та Kimi K2.5, що грали за Португалію.
Пов’язані новини
Альянс Five Eyes попереджає про AI-клацання кібератак уже за кілька тижнів, поки відомства розсилають заклик до дій
Google DeepMind попереджає, що дебати про свідомість ШІ можуть спричинити політичний конфлікт
Sumsub запускає інтеграцію AI-агента для автоматизації процесів комплаєнсу
Попередження Anthropic щодо ризиків ШІ з’являються в 8 разів частіше, ніж у OpenAI, і пов’язані з забороною на експорт