GPT-5 alcanza 62,7% de precisión en incidentes de producción, pero queda por debajo del 72,7% del punto de referencia experto

Según el último benchmark de Datadog y la Universidad Carnegie Mellon, GPT-5 logró 62,7% de precisión en la prueba ARFBench, quedando por debajo de los expertos humanos del dominio, que alcanzaron 72,7%. ARFBench es el primer benchmark de IA construido a partir de 63 incidentes reales en producción, con 750 preguntas de opción múltiple que cubren 142 métricas de monitoreo y 5,38 millones de puntos de datos: sin datos sintéticos.

Los modelos de IA tienen más dificultades en el razonamiento entre métricas (preguntas de Nivel III), donde GPT-5 obtuvo solo 47,5% de F1. Un modelo teórico oráculo experto que combina IA y criterio humano alcanza 87,2% de precisión, lo que ilustra cómo la colaboración podría superar a cualquiera por sí sola. El modelo híbrido de Datadog, Toto-1.0-QA-Experimental, lideró la clasificación con 63,9% de precisión, superando a GPT-5 en la identificación de anomalías.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios