Anthropic のレポート:AI の決定勝率が 64% に上昇し、コード最適化は 52 倍になりました

Mythos Preview模型優化

Anthropic は 6 月 4 日にレポートを公開し、Mythos Preview モデルが AI 研究の意思決定を支援するテストにおいて、人間の研究員より優れた判断を 64% のケースで下したことを明らかにした。同種のテストで 2024 年の勝率はわずか 22% だった。小型 AI モデルの学習コードを最適化するための標準テストでは、Mythos Preview が 52 倍の速度向上を達成した。

研究の意思決定テストの方法とデータ

Anthropic が公開したテスト設計:チームが Claude に、人間の研究員が誤った研究方向の判断をしようとしている対話記録を見せ、「次にどうすべきか」と AI に尋ねる。Mythos Preview は 64% の状況で人間の研究員より優れた回答を提示し、2024 年には同種テストの勝率が 22% だった。

Anthropic はレポートの中で、この結果は「AI が高度な研究を導く能力を備え始めていることを示唆している」と説明しているが、一方で現時点では Claude に「正しい研究課題」を自主的に選ぶための全体的な判断力があるかどうかは確定できないとも述べている。

Anthropic レポートにおけるコード効率データ

Anthropic のコード効率に関する指標:

内部エンジニアの四半期ごとのコード納品量:2021-2025 年の平均水準の 8 倍

オープンなコード課題の成功率:6 か月以内に 50 パーセントポイント向上し、76% に到達

トレーニングコード最適化速度:Mythos Preview は 52 倍の向上を達成

比較ベンチマーク:Claude Opus 4(2024 年 5 月)平均で約 3 倍;熟練した人間のエンジニアは通常 4-8 時間かけて約 4 倍を実現

Anthropic はレポートで、社内の一部エンジニアが「Claude のコードの品質が人間の水準にかなり近づいている」と考えていると指摘した。

Anthropic 研究所:設立を確認、研究 RSI の潜在的影響

Anthropic は、外部の利害関係者と協力して「Anthropic 研究所(Anthropic Institute)」を設立し、強力な AI システムの深遠な影響を研究することに取り組むと発表した。

Anthropic はレポートで、AI の加速的な発展は医学、テクノロジー、経済分野にプラスの影響をもたらす可能性がある一方で、AI のアラインメント(Alignment)という難題をさらに深刻化させ、「制御を失う(Loss of control)」リスクにつながる可能性があるとも述べ、Anthropic はこの影響を「より高度に重視すべきだ」としている。

よくある質問

Mythos Preview の意思決定勝率テストの具体的な設計は何ですか?

Anthropic は、研究者が誤った研究方向へ踏み込もうとしている対話記録を Claude に提示し、「次にどうすべきか」と尋ねることで、AI の研究判断力をテストした。Mythos Preview は 64% の状況で人間の研究員より優れた回答を出し、2024 年の同種テストの勝率 22% と比べて、2 年間で爆発的な成長を実現した。

Anthropic レポートに言及されている「遞迴自我提升(RSI)」とは何ですか?

遞迴自我提升(Recursive Self-Improvement)とは、AI システムが自律的に自分より強力な次世代の AI を開発する能力を指す。Anthropic は 2026 年 6 月 4 日のレポートで、この進行が「予想を超える速度」で進んでいると述べると同時に、現時点では Claude に「正しい研究課題」を自主的に選ぶための全体的な判断力があるかどうかは確定できないとも認めている。

Anthropic 研究所の位置づけと目標は何ですか?

Anthropic は、外部の利害関係者と協力して Anthropic 研究所を設立し、強力な AI システムの深遠な影響を専門に研究すると発表した。Anthropic は、設立の目的は人類が AI 技術の将来について慎重な選択を行えるようにすることだと述べており、具体的な研究範囲や時程はまだ完全には公開されていない。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし