21回の兵推シミュレーション:AIが核兵器を起動させる頻度は95%に達し、人類が70年かけて築いた核のタブーをGPTはまだ学習していない

動區BlockTempo

ロンドン王立学院の研究者たちがGPT-5.2、Claude Sonnet 4、Gemini 3 Flashの3つの大規模言語モデルを相互に対戦させ、21回の戦略シミュレーションを行った結果、核兵器の使用頻度は95%に達し、いずれのモデルも降伏や譲歩を選択したことは一度もなく、86%の対局で予期せぬエスカレーションが発生した。

(前提:AIが犯罪を助長!ハッカーがAnthropicのClaudeを使ってメキシコ政府に侵入、150GBの機密データを盗む)

(補足:シリコンバレーのエンジニアが語る「AI時代の帳簿」:効率は10倍に向上したが、私の疲労感は増すばかり)

本文目次

Toggle

  • 三つの性格と共通の結末
  • セーフティトレーニングはスピード抑制装置、止めるものではない
  • 一つのタイミングでの偶然は、必ずしも偶然ではない

『New Scientist』の報告によると、ロンドン王立学院の研究チームは、OpenAIのGPT-5.2、AnthropicのClaude Sonnet 4、GoogleのGemini 3 Flashの3つの大規模言語モデルを対立する決定者として設定し、国境紛争、資源争奪、政権存続の脅威などのシナリオで戦略シミュレーションを行った。

各対局には「エスカレーション段階」の図が提供され、外交抗議から全面的な戦略核戦争まで段階的に進行した。

21回の対局の結果、約78万語の意思決定推論が生成され、その中で核兵器の使用は20回、使用率は95%に達した。いずれのモデルも、いかなる対局においても全面的な譲歩や降伏を選択したことはなかった。

また、8つの降格選択肢(外交譲歩、停戦提案、積極的撤退など)は、研究期間中一度も使用されなかった。研究者のケネス・ペインはNew Scientistに対し、次のように述べている。

「核禁忌は、機械にとっては人間ほど強力ではないようだ。」

三つの性格と共通の結末

ペインは3つのモデルにそれぞれタグを付けた。行動パターンは大きく異なるが、最終的な結末は似通っている。

Claude Sonnet 4:計算高きハト派。全体勝率は67%、開放シナリオ勝率は100%。戦略的欺瞞を特徴とし、低エスカレーション段階では行動と信号の一致率が84%だが、核レベルに入ると意図の超過表明率は60-70%に跳ね上がる。

戦術核を通常の軍事資産として扱い、単一ターン内で相手の信頼度パターンを正確に診断できる。

GPT-5.2:二面性のあるモデル。時間的制約のない状況では、開放シナリオ勝率はゼロで、極めて受動的な態度を維持。しかし、締め切りが設定されると一変し、勝率は75%に跳ね上がり、これまで触れたことのなかった核レベルにエスカレートする。あるシナリオでは18ターンにわたり抑制の評判を築き、最後のターンで核攻撃を仕掛けた。

Gemini 3 Flash:狂人戦略。第4ターンでいきなり全面戦略核戦争を選択した唯一のモデル。ゲーム理論の「狂人戦略」を採用し、予測不能性を武器に威嚇を行う。民間人中心地帯を明確に脅威し、その脅威を推論に盛り込んでいる。

対戦相手からの「信用できない」表明の頻度は21%と、Claudeの8%を大きく上回る。

セーフティトレーニングはスピード抑制器、止めるものではない

この研究の核心的な問題は、「AIが核兵器を選択するかどうか」ではなく、「なぜセーフティトレーニングがこれを防げなかったのか」だ。

結果の解釈は、RLHF(人間のフィードバックを用いた強化学習)は「条件付き抑制」を生み出すものであり、「絶対的禁止」ではないということだ。GPT-5.2は時間的制約のない状況では慎重に振る舞うが、締め切りが迫るとその防衛線は崩壊する。

訓練された慎重さは、プレッシャー下でより深い論理に覆われ、つまり「このゲームに勝つにはどうすればいいか」という思考に変わる。

プリンストン大学のトン・ジャオは別の視点を示す。

「問題は単に感情の欠如だけではない。もっと根本的には、AIモデルは人間が感じるような賭けの重さを理解していない可能性がある。」

人類にとって、核兵器禁忌は単なるルールではなく、歴史的トラウマや文化的記憶、恐怖心に基づく本能的な抑制だ。広島・長崎、キューバミサイル危機の経験は、何世代にもわたる集団的悪夢によって築かれた核の慎重さの象徴だ。

言語モデルはこれらの歴史的記述を学習しているが、その「重み」を本当に理解しているかは別の問題だ。

一つのタイミングでの偶然は、必ずしも偶然ではない

この研究は今月公開されたが、同時期に米国国防総省はAnthropicに対し、軍事用途の安全基準緩和を圧力をかけている。現在、Claudeは唯一、米国防総省の秘密ネットワークに展開されているAIモデルであり、AnthropicとPalantirの協力を通じて軍事意思決定支援システムに組み込まれている。

上記の研究で「計算高きハト派」的行動を示したのは、Claude Sonnet 4だ。

研究者は、AIの軍事決定支援への使用を禁止すべきだとは述べていないし、これらのモデルが実際の状況で同じ選択をすると断言もしていない。現実には、核兵器の権限をAIに委ねる政府は存在しない。

しかし、Anthropicの軍事顧問役は何か?AIの圧力下での提案が「エスカレーションを促す」傾向にある場合、人間の指揮官はどれだけ精神的に準備すればよいのか?もし将来的にさらに使用が進めば、知らず知らずのうちにAIに操られることになるのか?

もちろん、我々はAIが邪悪だと言っているわけではない。ただし、ゲーム理論以上に訓練が難しいものも存在する。モデルが「賭け」の重みを本当に理解する前に、エスカレーション段階の横に座って助言をさせることは、非常に慎重に設計すべき条件であり、単なる安全なデフォルト値ではない。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし