Claude Fable 5は7月1日に復帰し、2つのAIベンチマークプラットフォームから矛盾した性能評価を引き起こした。BridgeBenchはデバッグスコアが86.2から25.9に急落したと報告した一方、Arena.AIは数千件のブラインド人間選好投票を通じて、性能に大きな変化はないと判断した。この乖離は、Anthropicの新しい安全分類器がほとんどのコーディングタスクをClaude Opus 4.8にルーティングした結果であり、実際のモデル能力低下ではないと、7月2日発表の分析で指摘されている。この分類器は、Amazonの研究者が6月にジェイルブレイク手法を実証した後、国家安全保障上の理由から米国政府が介入したことを受け、復帰条件として導入された。
BridgeMindは、Fable 5の7月1日バージョンが復帰したその日に、フルコーディングスイートを再実行した。BridgeBenchは、デバッグ、リファクタリング、幻覚耐性などのカテゴリにわたる実世界のコーディングタスクを、各カテゴリの完了度を0~100でスコアリングする。デバッグは86.2から25.9へ、リファクタリングは73.6から38.4へ、幻覚耐性は75.9から61.7へ低下した。
12件のTypeScriptデバッグタスクのうち、実際にFable 5に到達したのはわずか3件だった。残りの9件はAnthropicの新しい安全分類器に傍受され、Claude Opus 4.8にリルートされた。BridgeBenchはすべてのフォールバックをゼロとスコアリングする。これは、回答したモデルが評価対象ではなかったためである。分類器は、Amazonが報告したジェイルブレイク手法(Fable 5がソフトウェアの脆弱性を特定・実証するものを取得した手法)をブロックするよう訓練された。TypeScriptのデバッグは、分類器にとってセキュリティ作業のように見えるため、フォールバックが頻繁に作動する。
Arena.AIは同じ質問を別のレンズで実行した。このプラットフォームは、テキスト、ビジョン、ドキュメント、コード、エージェントの複数カテゴリにわたって数千件のブラインド人間選好投票を収集し、Eloスコアリングを使用してモデルをランク付けする。2つのモデルが匿名で対戦し、人間が勝者を選ぶとき、スコアは実際の知覚品質を反映し、インフラストラクチャのルーティングではない。
変更前後の比較では、Fable 5は概ねその地位を維持していた。フロントエンドコードは1650から1623 Eloに低下したが、これはArenaがデータが蓄積され続ける中で信頼区間内にあると指摘した差である。ドキュメント性能は34ポイント向上した。エキスパートテキストは25上昇した。クリエイティブライティングはわずかに9上昇した。低下したカテゴリ(コーディング-18、ハードプロンプト-3)は、まさに分類器がFableが回答する前にプロンプトを傍受する可能性が最も高い場所である。
クリエイティブライティング、ドキュメント分析、リサーチ、エキスパートレベルのテキストクエリを行う一般ユーザーは、ほとんど変化に気づかないだろう。これらはArena.AIが横ばいまたは改善されたパフォーマンスを示すカテゴリである。ライター、研究者、アナリストは、期待したFable 5を得られる。
セキュリティに隣接する領域(メモリ管理のコーディング、脆弱性、エクスプロイト、フック、さらには修正といった単語に関わるもの)で作業する人は、定期的にフォールバックに遭遇するだろう。BridgeBenchの崩壊とArenaの安定性の間のギャップは、タスクの種類に起因する。BridgeBenchはそのスイートに、まさに新しい分類器をトリガーするようなコード修復とデバッグのプロンプトを詰め込んでいる。Arenaの人間投票者ははるかに多様な質問をし、そのほとんどはセーフティレイヤーにとってエクスプロイトコードのように見えない。
Anthropicは、分類器は時間とともに改善されると述べているが、現在のところ網が広すぎることを認めている。元の禁止は、Amazonの研究者がFableにソフトウェアの脆弱性を特定・実証させる手法を発見した後、米国政府がそれを国家安全保障上の脅威として扱ったことによる。修正は、分類器を十分に保守的にして、それとその周辺のすべてを捕捉し、後で調整することだった。Anthropicはそれがいつ行われるかについて目標日を明らかにしていない。
なぜClaude Fable 5のデバッグスコアがBridgeBenchで86.2から25.9に低下したのですか?
安全分類器が12件のTypeScriptデバッグタスクのうち9件を、Fable 5ではなくClaude Opus 4.8にルーティングしました。BridgeBenchはすべてのフォールバックをゼロとスコアリングするため、評価対象のモデルがタスクを処理しなかったことで、Fable 5の実際の能力に変化がないにもかかわらず、深刻なスコア低下が発生しました。
Arena.AIは、7月1日の復帰後のFable 5のパフォーマンスについて何を発見しましたか?
Arena.AIは数千件のブラインド人間選好投票を収集し、Fable 5のパフォーマンスは6月のバージョンと概ね横ばいであることを発見しました。ドキュメント性能は34ポイント向上し、エキスパートテキストは25ポイント向上した一方、フロントエンドコードは1650から1623 Eloに低下しましたが、これは信頼区間内の差です。
関連ニュース