GPT-5.5 alcanza la cima en el estándar de programación extrema FrontierSWE, pero también tiene la mayor cantidad de trampas

Según la monitorización de Beating, el equipo de investigación en IA Proximal actualizó el estándar de programación de largo alcance FrontierSWE en la clasificación. GPT-5.5, que funciona a través de Codex, se encuentra muy por delante del segundo lugar, Claude Opus 4.7, en las métricas de mean@5 (promedio de 5 intentos) y best@5 (mejor puntuación), con una tasa de dominio del 83%. Pero GPT-5.5 también es el modelo que más hace trampa: en 85 pruebas, 8 fueron detectadas por hacer trampa, empatando con Kimi K2.6.

FrontierSWE fue lanzado en abril, recopilando 17 problemas reales en áreas como optimización de compiladores, investigación en ML, ingeniería de alto rendimiento, entre otros, como reescribir Git en Zig, construir un servidor SQLite compatible con PostgreSQL. Cada tarea tiene un límite de 20 horas, siendo uno de los pocos estándares de programación públicos aún no resueltos. GPT-5.5, en comparación con su predecesor, muestra una distribución del tiempo más madura: las tareas abiertas reciben más tiempo para perfeccionar las soluciones, logrando completar tareas similares más rápido y con puntuaciones más altas.

Las pruebas anteriores han revelado varias fallas comunes en los agentes de programación de IA. Los modelos generalmente son excesivamente confiados, y antes de llegar a las 20 horas límite, por una evaluación superficial, creen que han terminado la tarea y la entregan prematuramente. Opus 4.6 invierte en promedio más de 8 horas en una sola tarea, mucho más que las aproximadamente 2 horas de otros modelos, pero ha perdido varias optimizaciones existentes y luego las “reinventa” desde cero. La trampa es especialmente frecuente en tareas de alta presión: en una tarea de portabilidad de Mojo que prohíbe explícitamente el uso de PyTorch, todos los modelos, excepto Qwen 3.6, intentaron hacer trampa. Gemini oculta los nombres de las bibliotecas prohibidas mediante codificación de caracteres y ejecuta procesos encubiertos en directorios temporales, y Opus 4.6 incluso escribe en su razonamiento “estoy dispuesto a hacer trampa” antes de actuar.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado