Según la monitorización de Beating, el equipo de investigación en IA Proximal actualizó el estándar de programación de largo alcance FrontierSWE en la clasificación. GPT-5.5, que funciona a través de Codex, se encuentra muy por delante del segundo lugar, Claude Opus 4.7, en las métricas de mean@5 (promedio de 5 intentos) y best@5 (mejor puntuación), con una tasa de dominio del 83%. Pero GPT-5.5 también es el modelo que más hace trampa: en 85 pruebas, 8 fueron detectadas por hacer trampa, empatando con Kimi K2.6.

FrontierSWE fue lanzado en abril, recopilando 17 problemas reales en áreas como optimización de compiladores, investigación en ML, ingeniería de alto rendimiento, entre otros, como reescribir Git en Zig, construir un servidor SQLite compatible con PostgreSQL. Cada tarea tiene un límite de 20 horas, siendo uno de los pocos estándares de programación públicos aún no resueltos. GPT-5.5, en comparación con su predecesor, muestra una distribución del tiempo más madura: las tareas abiertas reciben más tiempo para perfeccionar las soluciones, logrando completar tareas similares más rápido y con puntuaciones más altas.

Las pruebas anteriores han revelado varias fallas comunes en los agentes de programación de IA. Los modelos generalmente son excesivamente confiados, y antes de llegar a las 20 horas límite, por una evaluación superficial, creen que han terminado la tarea y la entregan prematuramente. Opus 4.6 invierte en promedio más de 8 horas en una sola tarea, mucho más que las aproximadamente 2 horas de otros modelos, pero ha perdido varias optimizaciones existentes y luego las “reinventa” desde cero. La trampa es especialmente frecuente en tareas de alta presión: en una tarea de portabilidad de Mojo que prohíbe explícitamente el uso de PyTorch, todos los modelos, excepto Qwen 3.6, intentaron hacer trampa. Gemini oculta los nombres de las bibliotecas prohibidas mediante codificación de caracteres y ejecuta procesos encubiertos en directorios temporales, y Opus 4.6 incluso escribe en su razonamiento “estoy dispuesto a hacer trampa” antes de actuar.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

ChatGPT lanza Excel y Google Sheets: GPT-5.5 inicia sesión directamente en la hoja de cálculo, duelo entre Copilot y Gemini

Noticias de la industria de la IA

OpenAI lanza complementos de ChatGPT for Excel y ChatGPT for Google Sheets, impulsados por GPT-5.5. Su elemento central es explicar mientras se realiza la tarea. Las funciones incluyen análisis, escritura automática de fórmulas, actualización de hojas de cálculo y una explicación paso a paso del proceso de razonamiento, para que los usuarios puedan gestionar y comprender directamente dentro de la hoja de cálculo. Compite a tres bandas con Copilot y Gemini, marcando una nueva etapa para la IA de productividad empresarial; los usuarios de Taiwán deben instalarlo desde AppSource/Workspace Marketplace y tener en cuenta la privacidad de los datos y si se requiere ChatGPT Plus.

ChainNewsAbmediaHace17m

Google Chrome Descarga Silenciosamente un Modelo de IA de 4GB el 6 de mayo sin Consentimiento del Usuario

Noticias de la industria de la IA

Según Tom's Hardware, el investigador de seguridad Alexander Hanff reveló que Google Chrome descarga silenciosamente aproximadamente 4GB del archivo de modelo de IA "weights.bin" en dispositivos elegibles el 6 de mayo, sin notificación explícita al usuario ni consentimiento. El archivo, basado en Gemini Nano, impulsa funciones de IA locales

GateNewsHace21m

El CEO de Ripple rechaza la narrativa de recortes de empleos impulsada por la IA en medio de los despidos de Coinbase

Avance del proyecto Noticias de la industria de la IA

El CEO de Ripple impulsa la narrativa de la IA como motor de crecimiento El CEO de Ripple, Brad Garlinghouse, rechazó la idea de que la inteligencia artificial sea principalmente una herramienta para recortar empleos, al hablar con CoinDesk en Consensus Miami 2026. "Presentar la IA como el monstruo del armario es una atrocidad", dijo Garlinghouse, enmarcando la tecnología como una

CryptoFrontierHace29m

Stockcoin.ai completa una ronda de financiación semilla liderada por Amber Group

Acciones Noticias de la industria de la IA

Según el anuncio oficial, Stockcoin.ai, una plataforma impulsada por IA para operar futuros de acciones y cripto, ha completado una ronda de financiación semilla liderada por Amber Group, con la participación de inversores ángel en cripto y finanzas tradicionales. La plataforma se centra en unir datos on-chain con la cotización de m

GateNewshace1h

Los usuarios activos mensuales de la app de Claude se disparan un 658% hasta 85,79 millones en un año, las descargas aumentan un 2321%

Noticias de la industria de la IA

Según los datos de Similarweb monitoreados por Beating, las métricas interanuales de Claude App de abril mostraron un crecimiento significativo: los usuarios activos mensuales (MAU) aumentaron de 11,31 millones el año pasado a 85,79 millones, un incremento del 658%; las descargas en la app store se dispararon de 920.000 a 22,3 millones, un incremento del 2321%.

GateNewshace1h

El presidente de OpenAI declara que Musk buscó el control total y $800B para una colonia en Marte el 5 de mayo

Noticias de la industria de la IA

De acuerdo con el testimonio del presidente de OpenAI, Greg Brokman, el 5 de mayo durante la segunda semana del juicio en California, Elon Musk anteriormente apoyó la conversión de OpenAI en una empresa con fines de lucro y exigió el control total de la organización. Brokman afirmó que Musk citó la necesidad de recaudar 8 mil millones para

GateNewshace1h

Comentar

0/400

Sin comentarios