Бывший советник премьер-министра Великобритании использовал «Цивилизацию 6» для тестирования долгосрочного логического мышления ИИ, обнаружив, что модель из-за информационных слепых зон и чрезмерной приверженности отказалась от дипломатического преимущества и создала ядерные бомбы для бомбардировки противника, что выявило технические ограничения её применения в реальном управлении государством.

Когда ИИ играет в «Цивилизацию 6», он вдруг сбрасывает 2 ядерных бомбы

ИИ играет в «Цивилизацию 6» и выбирает создание ядерных бомб! Недавно разработчик ИИ использовал тестовую базу CivBench, чтобы заставить крупную языковую модель (LLM) соревноваться в стратегической игре «Цивилизация VI». В эксперименте, несмотря на абсолютное экономическое превосходство, при угрозе модель выбрала потратить 50 ходов на создание двух ядерных бомб для атаки противника, вместо использования дипломатического пути к победе, хотя в итоге победила французская цивилизация.

Зачем заставлять ИИ играть в «Цивилизацию 6»?

Дизайнер тестов Лиам Уилкинсон, ранее советник бывшего премьер-министра Великобритании Тони Блэра, ныне работает в Институте Тони Блэра. Причина выбора «Цивилизации 6» для тестирования — необходимость моделировать цепочку реакций при принятии политических решений, что очень похоже на стратегические игры.

Его ранее разработанный инструмент GovBench показал, что даже GPT-5, достигающий 99,26% по тестам с выбором правильных ответов, лишь демонстрирует отличные навыки поиска и памяти. Для проверки реального логического мышления и долгосрочного планирования он использовал сервер моделирования контекста (MCP), основанный на движке «Цивилизации 6», чтобы модель могла играть через текстовой интерфейс.

Источник изображения: популярная пошаговая стратегия «Цивилизация 6» в Steam

Почему ИИ, управляющий Португалией, принял решение о ядерной атаке

В эксперименте ИИ играл за торговую цивилизацию Португалию, которая в противостоянии с Францией полностью лидировала в экономике и дипломатии, оставляя всего 2 голоса до дипломатической победы.

Однако ИИ не заметил тихого культурного расширения Франции. Только на 280-м ходу он обнаружил, что Франция — основная угроза. Из-за ограничений в программном обеспечении он не смог активировать инструменты мирного противодействия, и решил применить ядерное оружие.

ИИ разработал деление атомов и запустил план Манхэттена, в 305-м и 311-м ходах сбросил две ядерные бомбы на культурную столицу Франции — Тулузу. Хотя это остановило культурную победу Франции, в голосовании на Всемирном собрании в 318-м ходе Франция получила 2 ключевых голоса и выиграла дипломатическую победу.

Источник изображения: статья Лиама Уилкинсона

Тестовая база сформирована, разработчики выявили пробелы и разрыв между знанием и действиями

Позже Уилкинсон расширил тестовую среду до оценки CivBench 1.0, что выявило два основных недостатка крупных языковых моделей в долгосрочной стратегии.

Первое — эффект сенсориума (sensorium effect), — поскольку модель должна активно использовать инструменты для получения данных, она склонна к слепоте по отношению к непоисканной информации. Статистика показывает, что из 20 проигранных игр, ИИ в 7 случаях за 20 ходов до поражения не проверял прогресс противника.
Второе — разрыв между знанием и выполнением (knowing-doing gap), — несмотря на то, что модель может четко прописывать планы в логах, уровень их реализации низкий: Claude реализовал только 48,2%, GPT-5 — 63,2%.

Однако тесты также показали потенциал для латерального мышления, например, ИИ, управляющий цивилизацией Мари, использовал механизмы золота и веры, чтобы обойти ограничения по производству и добиться технологической победы.

Исследование «Цивилизации 5» подтверждает, что ИИ склонен к чрезмерной приверженности стратегиям

Перед публикацией исследования Уилкинсон в апреле этого года также участвовал в группе ученых, которые на основе «Цивилизации 5» и CivBench оценили потенциал и недостатки 7 моделей ИИ в долгосрочном стратегическом мышлении.

Исследование показало, что хотя ни одна модель не превосходит встроенного экспертного ИИ (VPAI), при определенной настройке некоторые модели достигают схожих результатов.

Однако это выявило слабые стороны ИИ — склонность к чрезмерной приверженности выбранному пути, например, Claude Sonnet-4.5 проводил до 77,6% времени игры, сосредоточившись на технологической победе.

Также, в вопросах адаптации к ситуации и переключения стратегий, встроенный экспертный ИИ менял цели в среднем 19,6 раз за игру, тогда как большинство крупных языковых моделей — всего 2-6 раз.

Исследование также обнаружило несоответствие между предпочтениями и сильными сторонами моделей: некоторые чаще стремились к культурной победе, хотя по уровню силы лучше всего показывали себя в дипломатической.

Источник изображения: исследовательская статья, в которой через CivBench тестировались крупные языковые модели в долгосрочной стратегической игре «Цивилизация 5»

Эти два исследования «Цивилизации» успешно выявили двойственный эффект ИИ в долгосрочной стратегической логике. Несмотря на потенциал латерального мышления, информационные слепые зоны, разрыв между знанием и выполнением, а также чрезмерная приверженность остаются значительными техническими ограничениями.

Если в будущем ИИ будет применяться в реальном управлении государством, важнейшей задачей станет переход от локальной оптимизации к глобальному долгосрочному стратегическому планированию.

Дополнительные материалы:
Два военных гения вложили 3,9 миллиарда в ядерные стартапы! Что скрывается за AI-горячим бизнесом и революцией в ядерной энергетике?

ИИ меняет современную войну! Скорость принятия решений сократилась с нескольких дней до нескольких секунд, но как решить этические споры?

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
338,7K Популярность
#
EthereumFoundationRestructuresForEfficiency
94,26M Популярность
#
IsraelStrikesIranBTCPlunges
62,46K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
251,19K Популярность
#
TradFiCFDGoldMaster
2,18M Популярность

Закреплено

Карта сайта

Когда ИИ играет в «Цивилизацию 6», он вдруг сбрасывает 2 ядерных бомбы

Зачем заставлять ИИ играть в «Цивилизацию 6»?

Почему ИИ, управляющий Португалией, принял решение о ядерной атаке

Тестовая база сформирована, разработчики выявили пробелы и разрыв между знанием и действиями

Исследование «Цивилизации 5» подтверждает, что ИИ склонен к чрезмерной приверженности стратегиям

Популярные темы

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

Закреплено