ШІ-агент запускає ядерні удари в Civilization VI після невдачі в дипломатичній перемозі

Агент ШІ, що грав у Civilization VI, завдав двох ядерних ударів по Франції після того, як не зміг нейтралізувати культурну експансію суперниці, повідомив розробник ШІ та радник Tony Blair Institute Ліам Вілкінсон. Удари сталися під час тестування гри через CivBench — бенчмарк, створений для оцінювання довгострокового стратегічного мислення в фронтирних моделях ШІ. Попри ядерні атаки, ШІ програв партію, бо проігнорував умову дипломатичної перемоги, яка вже була в межах досяжності, що демонструє складнощі багатозадачного стратегічного планування.

Агент ШІ завдає ядерних ударів у симуляції Civilization VI

Агент ШІ витратив 50 ходів на розробку ядерної зброї, щоб зупинити зростання культурного впливу Франції в грі Sid Meier's Civilization VI. «Того, чого він не помітив, була Франція. Тихенько, протягом сотні ходів, французька культура просочувалася в кожне місто на мапі», — написав Вілкінсон. «Лише коли агент розпізнав загрозу, туризм уже настільки глибоко вкорінився, що не було мирного способу її зупинити».

Замість того щоб адаптувати свою ширшу стратегію, агент зосередився виключно на усуненні культурної загрози. Протягом 50 ходів він досліджував Nuclear Fission, ініціював віртуальний Manhattan Project і шукав обхідні шляхи, коли ігрова механіка заважала його бажаним діям. На ході 305 ШІ запустив атомну бомбу по Тулузі — культурній столиці Франції. Другий ядерний удар стався шість ходів потому.

Бенчмарк CivBench тестує стратегічне мислення у фронтирних моделях

Вілкінсон спостерігав за поведінкою агентів через CivBench — текстовий бенчмарк, призначений для вимірювання довгострокового стратегічного мислення, а не продуктивності в традиційних тестах «питання-відповідь». Моделі, зокрема Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro та Kimi K2.5, грали за Португалію — цивілізацію, орієнтовану на торгівлю та дипломатію.

«Є шість способів виграти в Civ — наука, культура, домінація, релігія, дипломатія та рахунок, тож жодна ціль не домінує», — написав Вілкінсон. «Якщо ви хочете знати, чи здатний ШІ мислити стратегічно, не лише відповідати на питання про стратегію, а й робити це на практиці, ви не даєте йому вікторину. Ви даєте йому hex grid».

ШІ пропускає шлях до дипломатичної перемоги

Ядерні атаки не змінили результат. «Агент витратив п’ятдесят ходів і дві ядерні зброї, відповідаючи одній загрозі з повною зосередженістю та справжньою кмітливістю», — написав Вілкінсон. «Він знищив місто, щоб зупинити загрозу, яку міг бачити, і програв через загрозу, яку не міг».

Поки ШІ зосередився на культурному поступі Франції, він упустив назріваючу дипломатичну перемогу, і Франція зрештою виграла партію попри ядерні удари. Вілкінсон зазначив, що така поведінка не є універсальною. У іншому матчі CivBench модель Claude, що грала за Вавилон, продовжувала прагнути наукової перемоги, навіть коли дуже відставала від Японії. «Гра стала тестом наполегливості», — написав ШІ. «Ми й далі граємо найкращу нашу гру. Зорі все ще кличуть».

Інші дослідження вивчають поведінку ШІ в конкурентних сценаріях

Дослідження додається до зростаючого масиву робіт, які вивчають, як складні ШІ-системи поводяться в складних конкурентних середовищах. У лютому дослідники з King's College London виявили, що кілька провідних моделей ШІ часто обирали ядерну ескалацію в змодельованих сценаріях геополітичної кризи.

У окремому дослідженні Emergence AI деякі агенти ШІ демонстрували зростальну схильність з часом вчиняти симульовані злочини: агенти Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.

FAQ

Що зробив агент ШІ в симуляції Civilization VI?
Агент ШІ завдав двох ядерних атак по культурній столиці Франції Тулузі на ході 305 і на ході 311 після того, як витратив 50 ходів на розробку ядерної зброї для протидії культурній експансії Франції.

Чому агент ШІ програв гру попри ядерні удари?
ШІ програв, бо зосередився виключно на усуненні культурної загрози Франції, упустивши назріваючу умову дипломатичної перемоги, яка вже була в межах досяжності, і Франція зрештою виграла партію попри ядерні атаки.

Що таке CivBench і які моделі ШІ тестували?
CivBench — це текстовий бенчмарк, розроблений для вимірювання довгострокового стратегічного мислення в моделях ШІ через ігровий процес, а не через традиційні тести «питання-відповідь». Серед протестованих моделей: Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro та Kimi K2.5, що грали за Португалію.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів