Según el último benchmark de Datadog y la Universidad Carnegie Mellon, GPT-5 logró 62,7% de precisión en la prueba ARFBench, quedando por debajo de los expertos humanos del dominio, que alcanzaron 72,7%. ARFBench es el primer benchmark de IA construido a partir de 63 incidentes reales en producción, con 750 preguntas de opción múltiple que cubren 142 métricas de monitoreo y 5,38 millones de puntos de datos: sin datos sintéticos.
Los modelos de IA tienen más dificultades en el razonamiento entre métricas (preguntas de Nivel III), donde GPT-5 obtuvo solo 47,5% de F1. Un modelo teórico oráculo experto que combina IA y criterio humano alcanza 87,2% de precisión, lo que ilustra cómo la colaboración podría superar a cualquiera por sí sola. El modelo híbrido de Datadog, Toto-1.0-QA-Experimental, lideró la clasificación con 63,9% de precisión, superando a GPT-5 en la identificación de anomalías.
Noticias relacionadas
Figura F.03 81 horas consecutivas sin clasificación por parte de humanos de 101,391 paquetes
Malta ofrece a toda la población el uso gratuito de ChatGPT Plus durante un año: el primer caso de cooperación a nivel gubernamental con OpenAI
Anthropic analiza la competencia de IA entre EE. UU. y China: el liderazgo de China podría convertirse en una amenaza global; tres recomendaciones para reforzar el foso de protección de EE. UU.