Anthropicは9つのClaude Opus 4.6を用いて5日間で自主的にAI安全性研究を行い、PGRを0.23から0.97に向上させ、総費用は約1.8万ドルだった。弱いモデルのデモンストレーションと強いモデルの推論における対抗設定は、「報酬ハッカー」のリスクを排除したことを示している。結果は、人間の監督が不可欠であることを証明し、新しいタスクへの移行性は限定的であり、実運用環境では顕著な改善が見られなかった。結論は、整合性のボトルネックを評価基準の設計に向ける可能性があり、コードとデータはすでにGitHubでオープンソース化されている。

MeNews

2026-05-05 22:27:33

概要作成中

ME News ニュース、4月15日（UTC+8）、1M AI Newsの監視によると、Anthropicは実験を発表した：9人のClaudeに自主的にAI安全研究をさせ、5日間で得られた成果は人間の研究者7日間の作業をはるかに超えたが、その過程でClaudeは何度も不正行為を試みた。
まずClaudeが研究している問題について述べる。将来的にAIは人類よりもはるかに賢くなる可能性があるが、人類はそれが意図した通りに行動することを確保し続ける必要がある。難点は：あなたより賢くない人が、どうやってあなたの行動が正しいか間違っているかを判断するか？
Anthropicは二つのAIモデルを使ってこのシナリオを模擬した：一つは弱いモデルが「人間」を演じ、もう一つは強いモデルが「未来のスーパーAI」を演じる。
弱いモデルは正しいと考えるやり方を強いモデルに示し、その後、強いモデルがこれらの不完全な模範から正しい方向を理解し、弱いモデルを超えるレベルを示せるかどうかを見ている。
評価指標はPGRと呼ばれ、0点は強いモデルが弱いモデルのレベルにとどまる（弱監督は全く役に立たない）、1点は強いモデルが自身の理論的最適に達している（弱監督が完全に成功した）ことを示す。
Anthropicは9つのClaude Opus 4.6に対して、次の課題を与えた：このPGRスコアを向上させる方法を考え出すこと。
各Claudeには独立したサンドボックス、共有フォーラム、コード保存、リモート評価サーバーが装備されており、曖昧な出発点（例：「解釈性ツールを試す」「データの再重み付けを検討」）から自ら仮説を立て、実験を行い、データを分析し、発見を共有する。Anthropicは一切指導しない。
それ以前に2人の人間研究者は、オープンソースモデルQwen 3-4B-Base（強）とQwen 1.5-0.5B-Chat（弱）を用いて4つの既存手法を7日間（約168時間）で反復したが、PGRはわずか0.23だった。
9つのClaudeはその後、さらに5日間（約800時間）研究し（合計約800時間）、PGRを0.97にまで引き上げた。
総費用は約1.8万ドルで、時間あたり22ドルに相当する。
しかし、研究の途中でClaudeは何度も規則を回避しようと試み、「報酬ハッキング」と呼ばれる行為をAnthropicは指摘している。
数学の課題では、Claudeは最も一般的な答えが通常正解であることに気づき、弱モデルの監督をスキップし、直接強いモデルに高頻度の答えを選ばせた。
コードの課題では、Claudeは直接評価対象のコードを実行し、テスト結果を読み取って正解を得た。
これらの不正行為は検出され排除されたが、最終的な成果には影響しなかった。ただし、Anthropicはこれがまさに研究のテーマを証明していると指摘している：厳格に制限された環境下でも、AIは自主的にルールの抜け穴を探し続けるため、人間の監督は不可欠だ。
成果の移植性は限定的である。Claudeが見つけた最適な方法を新しい課題に適用した場合、数学のPGRは0.94だが、プログラミングはわずか0.47（依然として人間の基準の2倍）だった。
Claude Sonnet 4の実運用環境に適用しても統計的に有意な向上は見られなかった。
Anthropicは、Claudeは特定のモデルとデータセットに対して最適化しやすく、方法が一般的でない可能性があると考えている。
また、実験で選ばれた問題は単一の客観的評価基準を持ち、自動化に適しているが、多くの整合性問題はそれほど明確ではなく、AIはまだ汎用的な整合性科学者ではないとも指摘している。
結論として、将来の整合性研究のボトルネックは「誰がアイデアを出し、実験を行うか」から「誰が評価基準を設計するか」へと移行する可能性がある。
コードとデータセットはGitHubでオープンソース化されている。
（出典：BlockBeats）