Datadog とカーネギーメロン大学の最新ベンチマークによると、GPT-5 は ARFBench テストで 62.7% の精度を達成したものの、人間の分野専門家の 72.7% に届かなかった。ARFBench は 63 件の実運用インシデントから構築された最初の AI ベンチマークで、750 問の多肢選択問題を含み、142 の監視メトリクスと 538 万のデータポイントを対象としており、合成データはない。
AI モデルは、特にメトリクス横断の推論(Tier III の問題)で最も苦戦しており、GPT-5 は F1 で 47.5% にとどまった。AI と人間の判断を組み合わせた理論上のモデル・エキスパート・オラクルは 87.2% の精度に到達し、協調が単独のどちらよりも上回り得ることを示している。Datadog のハイブリッドモデルである Toto-1.0-QA-Experimental は、精度 63.9% でリーダーボードのトップに立ち、異常の特定において GPT-5 を上回った。
関連ニュース