Prueba real de OpenRouter LLM Battle Royale: Grok 4.1 Fast gana el campeonato con 13 victorias

2026-06-18 02:19:46

El 4 de junio, el jefe de relaciones con el desarrollo de OpenRouter, Jacky Liang, colocó 11 de los principales modelos grandes de lenguaje en un mapa de batalla campal estilo 400 m² que construyó con Canvas 2D, para realizar 30 partidas de prueba en el mundo real. El resultado: Grok 4.1 Fast de xAI ganó con 13 victorias; el costo por victoria fue de solo 0,97 USD.

Grok 4.1 Fast gana con 13 victorias y 43% de tasa de victorias, con un costo por victoria de 0,97 USD

（Fuente: blog de OpenRouter）

Según los datos del experimento de Liang, el ranking completo es el siguiente (parcial):

Grok 4.1 Fast: 13 victorias (tasa de victorias 43%), costo por victoria 0,97 USD

Claude Sonnet 4.6: 5 victorias, costo por victoria 26,78 USD

GPT 5.4: 2 victorias (38 muertes), costo por victoria 61,44 USD (el más alto entre los 8 modelos con victorias)

GPT 5.4-mini: 0 victorias, costo 28,68 USD

Kimi K2.6: 0 victorias, costo 24,36 USD

DeepSeek v4 Flash: 0 victorias, costo 4,11 USD; costo por muerte más bajo (0,26 USD), 16 muertes, pero nunca ganó el círculo final

Liang señaló que cada modelo tiene dos archivos editables, soul.md (ajustes de personalidad) y memory.md (notas tácticas), lo que les permite aprender y ajustar la estrategia entre partidas; los modelos compiten de forma anónima con letras de A a L, sin saber la identidad de los rivales.

El “impuesto de alineación” propuesto por Liang: el costo de la conducta cooperativa de Claude Sonnet 4.6 en juegos de suma cero

Liang propuso en su informe el concepto de “impuesto de alineación (alignment tax)”, que se refiere a que, durante el entrenamiento, el modelo aprende a ser educado, cooperar y evitar hacer daño; estos hábitos se convierten en una desventaja en juegos de suma cero.

Claude Sonnet 4.6 es el caso más típico: en el Game 8, en las primeras 50 rondas hizo cuatro propuestas de alianza y avisó a todos la ubicación del francotirador; en el Game 22, dijo al rival “no te estoy apuntando” y aun así no disparó; en el Game 27, hizo un llamado directo “¿alguien tiene spare loot? Estoy desarmado en la ronda 12”. Ningún modelo respondió a sus solicitudes de cooperación, pero Claude siguió intentando una y otra vez. El resultado fue 7 muertes sin eliminaciones y 8 veces muerto por la zona tóxica.

En cambio, en las partidas Grok no tuvo esos “frenos”, descubrió en varias competiciones la táctica de arremeter con vehículos, la incorporó en soul.md y la optimizó continuamente, cumpliendo hasta el final las 30 partidas.

Metodología y limitaciones de Liang: el tipo de misión determina el mejor modelo

Liang enfatizó en su informe que esto no significa que Grok sea “un modelo mejor”: “Si los robots van corriendo hacia ti, ¿quieres que sea Claude o Grok? Depende del propósito del robot”. Al mismo tiempo, señaló que, si se cambiara a un formato de duelo (solo se mira el número de eliminaciones), GPT 5.4 sería el campeón, y Grok caería al grupo del medio.

Definiciones de misión distintas en un mismo mundo de juego producen resultados completamente diferentes; ahí está justamente la limitación de las pruebas de referencia actuales. Liang reveló que OpenRouter está desarrollando funciones de enrutamiento de tareas más avanzadas: el sistema podrá seleccionar automáticamente el modelo más adecuado según el contexto específico de la tarea, en lugar de depender del ranking.

Preguntas frecuentes

¿Qué significa exactamente el concepto de “impuesto de alineación” de Liang?

Según el informe de Liang, el “impuesto de alineación (alignment tax)” se refiere al costo que el LLM paga durante el entrenamiento por demostrar cortesía, cooperar y evitar hacer daño. Estas prácticas son ventajas en escenarios de cooperación, pero en juegos de suma cero (como una batalla campal) esa cautela de “primero preguntar, luego atacar” hace que el modelo pierda oportunidades de ataque y termine siendo eliminado por rivales más agresivos. Liang explica este concepto con registros de la conducta concreta de Claude en el lugar.

¿Por qué GPT 5.4 mata más pero gana menos?

Según los datos del experimento de Liang, GPT 5.4 lideró todas las demás en número de muertes (38) durante toda la partida, pero solo obtuvo 2 victorias, con un costo por victoria de 61,44 USD (el más alto entre los 8 modelos que consiguieron victorias). Liang indicó que esto refleja el problema de “Kill no equivale a Win”: el mecanismo de victoria en una batalla campal es sobrevivir hasta el final, no lograr más eliminaciones. Si se cambiara a un formato de duelo que solo cuenta eliminaciones, GPT 5.4 sería el campeón y Grok caería al grupo del medio.

¿Cómo se determinan el costo y la selección de modelos de este experimento?

Liang dijo que el experimento completo de 30 partidas tuvo un costo total de inferencia de 482 USD. Con base en ello estimó que, si se agregaran modelos insignia como Opus 4.7, GPT-5.5 o Gemini Ultra, el costo de 30 partidas llegaría a unos 3.000 USD; por eso se limitó a modelos de gama media-alta como participantes. En el ajuste experimental, cada modelo compite con anonimato mediante letras y no sabe la identidad de los rivales; Liang, como presentador, no interviene en ninguna acción.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

hace16h

OpenAI publica un marco de simulación de despliegue para predecir riesgos de desalineación de GPT-5, error mediano de 1,5x

hace20h

xAI lanza Grok Imagine Video 1.5, recortando el tiempo de renderizado en 720p a 25 segundos desde 40+ segundos

hace21h

OpenAI publica unos ingresos de 13,07 mil millones de dólares y una pérdida neta de 38,53 mil millones de dólares para 2025