D’après les derniers benchmarks de Datadog et de la Carnegie Mellon, GPT-5 a atteint 62,7 % de précision sur le test ARFBench, en dessous des experts humains du domaine à 72,7 %. ARFBench est le premier benchmark d’IA construit à partir de 63 incidents réels en production, comprenant 750 questions à choix multiples couvrant 142 indicateurs de supervision et 5,38 millions de points de données — aucune donnée synthétique.
Les modèles d’IA ont le plus de difficultés sur le raisonnement inter-indicateurs (questions de niveau III), où GPT-5 n’a obtenu que 47,5 % de F1. Une modèle-oracle théorique associant l’IA et le jugement humain atteint 87,2 % de précision, illustrant comment la collaboration pourrait dépasser à la fois l’un et l’autre. Le modèle hybride de Datadog, Toto-1.0-QA-Experimental, a dominé le classement avec 63,9 % de précision, surpassant GPT-5 pour l’identification d’anomalies.
Actualités associées
Figure F.03 81 heures consécutives sans tri et 101 391 colis non triés
Malte offre gratuitement ChatGPT Plus pendant un an à toute la population : premier partenariat au niveau national d’OpenAI
Anthropic évoque la course à l’IA entre la Chine et les États-Unis : la Chine pourrait prendre l’avantage et constituer une menace mondiale, et trois recommandations pour renforcer la « douve » de l’Amérique