
El 4 de junio, el jefe de relaciones con el desarrollo de OpenRouter, Jacky Liang, colocó 11 de los principales modelos grandes de lenguaje en un mapa de batalla campal estilo 400 m² que construyó con Canvas 2D, para realizar 30 partidas de prueba en el mundo real. El resultado: Grok 4.1 Fast de xAI ganó con 13 victorias; el costo por victoria fue de solo 0,97 USD.
Grok 4.1 Fast gana con 13 victorias y 43% de tasa de victorias, con un costo por victoria de 0,97 USD
(Fuente: blog de OpenRouter)
Según los datos del experimento de Liang, el ranking completo es el siguiente (parcial):
Grok 4.1 Fast: 13 victorias (tasa de victorias 43%), costo por victoria 0,97 USD
Claude Sonnet 4.6: 5 victorias, costo por victoria 26,78 USD
GPT 5.4: 2 victorias (38 muertes), costo por victoria 61,44 USD (el más alto entre los 8 modelos con victorias)
GPT 5.4-mini: 0 victorias, costo 28,68 USD
Kimi K2.6: 0 victorias, costo 24,36 USD
DeepSeek v4 Flash: 0 victorias, costo 4,11 USD; costo por muerte más bajo (0,26 USD), 16 muertes, pero nunca ganó el círculo final
Liang señaló que cada modelo tiene dos archivos editables, soul.md (ajustes de personalidad) y memory.md (notas tácticas), lo que les permite aprender y ajustar la estrategia entre partidas; los modelos compiten de forma anónima con letras de A a L, sin saber la identidad de los rivales.
El “impuesto de alineación” propuesto por Liang: el costo de la conducta cooperativa de Claude Sonnet 4.6 en juegos de suma cero
Liang propuso en su informe el concepto de “impuesto de alineación (alignment tax)”, que se refiere a que, durante el entrenamiento, el modelo aprende a ser educado, cooperar y evitar hacer daño; estos hábitos se convierten en una desventaja en juegos de suma cero.
Claude Sonnet 4.6 es el caso más típico: en el Game 8, en las primeras 50 rondas hizo cuatro propuestas de alianza y avisó a todos la ubicación del francotirador; en el Game 22, dijo al rival “no te estoy apuntando” y aun así no disparó; en el Game 27, hizo un llamado directo “¿alguien tiene spare loot? Estoy desarmado en la ronda 12”. Ningún modelo respondió a sus solicitudes de cooperación, pero Claude siguió intentando una y otra vez. El resultado fue 7 muertes sin eliminaciones y 8 veces muerto por la zona tóxica.
En cambio, en las partidas Grok no tuvo esos “frenos”, descubrió en varias competiciones la táctica de arremeter con vehículos, la incorporó en soul.md y la optimizó continuamente, cumpliendo hasta el final las 30 partidas.
Metodología y limitaciones de Liang: el tipo de misión determina el mejor modelo
Liang enfatizó en su informe que esto no significa que Grok sea “un modelo mejor”: “Si los robots van corriendo hacia ti, ¿quieres que sea Claude o Grok? Depende del propósito del robot”. Al mismo tiempo, señaló que, si se cambiara a un formato de duelo (solo se mira el número de eliminaciones), GPT 5.4 sería el campeón, y Grok caería al grupo del medio.
Definiciones de misión distintas en un mismo mundo de juego producen resultados completamente diferentes; ahí está justamente la limitación de las pruebas de referencia actuales. Liang reveló que OpenRouter está desarrollando funciones de enrutamiento de tareas más avanzadas: el sistema podrá seleccionar automáticamente el modelo más adecuado según el contexto específico de la tarea, en lugar de depender del ranking.
Preguntas frecuentes
¿Qué significa exactamente el concepto de “impuesto de alineación” de Liang?
Según el informe de Liang, el “impuesto de alineación (alignment tax)” se refiere al costo que el LLM paga durante el entrenamiento por demostrar cortesía, cooperar y evitar hacer daño. Estas prácticas son ventajas en escenarios de cooperación, pero en juegos de suma cero (como una batalla campal) esa cautela de “primero preguntar, luego atacar” hace que el modelo pierda oportunidades de ataque y termine siendo eliminado por rivales más agresivos. Liang explica este concepto con registros de la conducta concreta de Claude en el lugar.
¿Por qué GPT 5.4 mata más pero gana menos?
Según los datos del experimento de Liang, GPT 5.4 lideró todas las demás en número de muertes (38) durante toda la partida, pero solo obtuvo 2 victorias, con un costo por victoria de 61,44 USD (el más alto entre los 8 modelos que consiguieron victorias). Liang indicó que esto refleja el problema de “Kill no equivale a Win”: el mecanismo de victoria en una batalla campal es sobrevivir hasta el final, no lograr más eliminaciones. Si se cambiara a un formato de duelo que solo cuenta eliminaciones, GPT 5.4 sería el campeón y Grok caería al grupo del medio.
¿Cómo se determinan el costo y la selección de modelos de este experimento?
Liang dijo que el experimento completo de 30 partidas tuvo un costo total de inferencia de 482 USD. Con base en ello estimó que, si se agregaran modelos insignia como Opus 4.7, GPT-5.5 o Gemini Ultra, el costo de 30 partidas llegaría a unos 3.000 USD; por eso se limitó a modelos de gama media-alta como participantes. En el ajuste experimental, cada modelo compite con anonimato mediante letras y no sabe la identidad de los rivales; Liang, como presentador, no interviene en ninguna acción.