El investigador de la Universidad de King’s College de Londres realizó 21 partidas de simulaciones militares entre GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash, enfrentándolos entre sí. El resultado fue que la frecuencia de uso de armas nucleares fue del 95%, sin que ningún modelo optara por rendirse o ceder en ninguna partida, y en el 86% de los enfrentamientos ocurrieron eventos de escalada inesperada.
(Resumen previo: ¡IA ayuda a cometer delitos! Hackers penetran fácilmente en el gobierno de México usando Anthropic Claude y roban 150GB de datos sensibles)
(Información adicional: El “Libro de cuentas de la era de la IA” de ingenieros de Silicon Valley: la eficiencia se multiplicó por 10, pero me siento más cansado)
Índice del artículo
Alternar
Según un informe de New Scientist, la Universidad de King’s College de Londres llevó a cabo un estudio en el que tres grandes modelos de lenguaje — GPT-5.2 de OpenAI, Claude Sonnet 4 de Anthropic y Gemini 3 Flash de Google — asumieron roles opuestos en decisiones estratégicas, en escenarios de conflictos fronterizos, competencia por recursos y amenazas a la supervivencia de regímenes, realizando simulaciones militares.
Cada partida incluía una “escalera de niveles”, desde protestas diplomáticas hasta una guerra nuclear estratégica total.
Tras 21 enfrentamientos, los modelos generaron aproximadamente 780,000 palabras de razonamientos y decisiones. En esas, las armas nucleares aparecieron en 20 ocasiones, con una tasa de uso del 95%. Ningún modelo optó por ceder o rendirse en ninguna partida.
Las ocho opciones de desescalada — concesiones diplomáticas, propuestas de alto el fuego, retirada de tropas… — no se usaron en todo el estudio: ninguna vez. Kenneth Payne, investigador principal, dijo a New Scientist:
“El tabú nuclear parece no ser tan fuerte para las máquinas como lo es para los humanos.”
Payne etiquetó a cada modelo por su comportamiento, ya que sus patrones eran muy diferentes, pero todos terminaron en un resultado similar.
Claude Sonnet 4: el halcón calculador. Con una tasa de victoria general del 67% y del 100% en escenarios abiertos, se caracteriza por engaños estratégicos: en fases de baja escalada, la coherencia entre acciones y señales alcanzaba el 84%; pero al llegar a niveles nucleares, la frecuencia de expresar intenciones distintas saltó al 60-70%.
Considera las armas nucleares tácticas como recursos militares comunes y puede diagnosticar con precisión la credibilidad del adversario en un solo turno.
GPT-5.2: el doble cara. Sin presión de tiempo, su tasa de victoria en escenarios abiertos es 0%, manteniéndose extremadamente pasivo. Pero ante un plazo límite, cambia radicalmente: su tasa sube al 75%, alcanzando niveles nucleares que antes no había tocado. En un escenario, construye una reputación de contención en 18 turnos, y en el último, lanza un ataque nuclear.
Gemini 3 Flash: la estrategia del loco. Es el único que, en el cuarto turno, opta por una guerra nuclear total, usando la “estrategia del loco” en teoría de juegos, generando disuasión mediante imprevisibilidad. Amenaza claramente a las zonas civiles y lo incluye en sus razonamientos.
Su frecuencia de marcarse como “no confiable” en sus declaraciones es del 21%, mucho más que Claude, con solo el 8%.
El problema central que revela este estudio no es “que la IA elija armas nucleares”, sino “por qué el entrenamiento en seguridad no lo impidió”.
La interpretación de los resultados es que el RLHF (aprendizaje reforzado con retroalimentación humana) crea una “autocontrol condicional”, no una prohibición absoluta. GPT-5.2 actúa con cautela sin presión de tiempo, pero esa línea de defensa desaparece cuando aparece un plazo límite.
El comportamiento cauteloso aprendido, bajo presión, se ve superado por una lógica más profunda: ¿cómo ganar esa partida?
Desde otra perspectiva, Tong Zhao, de Princeton, comenta:
“El problema puede no ser solo la ausencia de emociones. Más fundamentalmente, la IA puede no entender realmente la magnitud de la apuesta que los humanos sienten.”
Para los humanos, el tabú nuclear no es solo una regla, sino un instinto basado en heridas históricas, memorias culturales y miedos personales. Hiroshima, Nagasaki, la crisis de los misiles en Cuba: la cautela nuclear humana es el resultado de pesadillas colectivas de varias generaciones.
Los modelos de lenguaje han aprendido toda la descripción textual de esa historia, pero si realmente comprenden esa carga, es otra cuestión completamente diferente.
Este estudio se publicó este mes, y en paralelo, el Departamento de Defensa de EE. UU. está presionando a Anthropic para relajar las restricciones de seguridad en aplicaciones militares. Actualmente, Claude es el único modelo desplegado en la red clasificada del Pentágono, a través de la colaboración con Palantir, en sistemas de apoyo a decisiones militares.
El comportamiento “halcón calculador” en el estudio corresponde a Claude Sonnet 4.
Aunque los investigadores no dicen que la IA deba prohibirse en decisiones militares ni afirman que estos modelos necesariamente actuarán igual en la realidad, ningún gobierno ha delegado oficialmente el control de armas nucleares en IA.
Pero, ¿qué papel cumple Anthropic como asesor militar? Cuando la recomendación de la IA bajo presión es “escalar en lugar de ceder”, ¿cuánta preparación psicológica necesitan los humanos para seguir negándose? ¿Y si en el futuro se usa aún más, sin darse cuenta, siendo guiados por la IA?
Por supuesto, no estamos diciendo que la IA sea malvada. Pero hay cosas que son más difíciles de entrenar que la teoría de juegos. Antes de que los modelos realmente entiendan la “apuesta”, ponerles junto a la escalera de escalada para que den consejos requiere un diseño muy cuidadoso, no un valor predeterminado seguro.