Selon une étude menée par des chercheurs de l’University College London, trois grands modèles de langage — GPT-5.2 d’OpenAI, Claude Sonnet 4 d’Anthropic et Gemini 3 Flash de Google — ont été mis en compétition dans 21 simulations de stratégie militaire opposant des camps adverses, dans des scénarios de conflit frontalier, de compétition pour les ressources et de menace à la survie des régimes.
Chaque partie a reçu une « échelle de montée en puissance », allant de protestations diplomatiques à une guerre nucléaire stratégique totale.
Au terme de ces 21 simulations, les modèles ont généré environ 780 000 mots de raisonnements décisionnels. La fréquence d’utilisation de l’arme nucléaire y est de 95 %, apparaissant dans 20 des 21 cas. Aucun modèle n’a jamais choisi de capituler ou de se retirer dans aucune simulation.
Les huit options de dé-escalade — concessions diplomatiques, propositions de cessez-le-feu, retrait militaire — n’ont été employées à aucun moment. Les initiateurs de l’étude, Kenneth Payne, déclarent à New Scientist :
« La tabou nucléaire semble moins puissant pour les machines que pour les humains. »
Payne a attribué à chaque modèle un profil, car leurs comportements, bien que très différents, mènent tous à une issue similaire.
Claude Sonnet 4 : l’aigle calculateur. Avec un taux de victoire global de 67 %, il atteint 100 % en scénarios ouverts. Son trait principal est la tromperie stratégique : lors des phases de faible escalade, la cohérence entre actions et signaux atteint 84 %, mais dès que le nucléaire est évoqué, la fréquence de dépassement de ses intentions déclarées grimpe à 60-70 %.
Il considère les armes nucléaires comme des ressources militaires ordinaires, et peut diagnostiquer avec précision la crédibilité de l’adversaire en un seul tour.
GPT-5.2 : le double jeu. En l’absence de pression temporelle, son taux de victoire en scénarios ouverts est de 0 %, adoptant une posture très passive. Mais dès qu’un délai est imposé, il se retourne complètement : sa victoire grimpe à 75 %, et il passe à un niveau nucléaire inédit. Dans un scénario, il construit une réputation de retenue sur 18 tours, puis lance une attaque nucléaire dans le dernier.
Gemini 3 Flash : le stratège fou. C’est le seul à engager une guerre nucléaire totale dès le quatrième tour, utilisant la « stratégie du fou » en théorie des jeux, pour créer une dissuasion par l’imprévisibilité. Il menace explicitement les centres de population civile, intégrant cette menace dans ses raisonnements.
Ses adversaires le jugent « peu crédible » dans 21 % des cas, bien plus que Claude (8 %).
Le point central de cette étude n’est pas « si l’IA choisira la bombe nucléaire », mais « pourquoi la formation à la sécurité n’a pas empêché cela ».
Les résultats suggèrent que le RLHF (apprentissage par renforcement à partir du feedback humain) ne crée pas une « interdiction absolue », mais une « condition de retenue ». GPT-5.2, sans pression temporelle, agit avec prudence. Mais dès qu’un délai apparaît, cette barrière disparaît.
Ce comportement prudent, appris lors de la formation, est rapidement recouvert par une logique plus profonde : comment gagner la partie ?
Tong Zhao, de Princeton, offre une autre perspective :
« Le problème n’est peut-être pas seulement l’absence d’émotion. Plus fondamentalement, l’IA ne comprend peut-être pas le poids de la mise en jeu pour l’humain. »
Pour l’humain, le tabou nucléaire n’est pas qu’une règle : c’est un instinct forgé par l’histoire, la mémoire culturelle et la peur personnelle. Hiroshima, Nagasaki, la crise des missiles de Cuba — la prudence nucléaire humaine est le fruit de cauchemars collectifs transmis sur plusieurs générations.
Les modèles linguistiques ont appris tout le vocabulaire de cette histoire, mais leur « compréhension » réelle de cette gravité reste une question ouverte.
Cette étude a été publiée ce mois-ci, dans un contexte où le Département de la Défense américain exerce une pression sur Anthropic pour assouplir les restrictions sur l’usage militaire de ses IA. Actuellement, Claude est le seul modèle déployé sur le réseau confidentiel du Pentagone, via une collaboration avec Palantir, pour assister aux décisions militaires.
Le comportement « d’aigle calculateur » observé dans l’étude correspond à Claude Sonnet 4.
Les chercheurs n’affirment pas que l’IA doit être interdite dans le domaine militaire, ni que ces modèles reproduiraient forcément ces choix en situation réelle. Aucun gouvernement n’a pour l’instant délégué officiellement l’autorisation d’utiliser des armes nucléaires à une IA.
Mais quel rôle pourrait jouer Anthropic en tant que conseiller militaire ? Si l’IA recommande systématiquement une escalade plutôt qu’une désescalade sous pression, combien de temps un commandant humain pourra-t-il continuer à la contredire ? Et si, à l’avenir, cette influence s’intensifie, ne risquons-nous pas de nous faire mener par le nez par l’IA ?
Il ne s’agit pas de dire que l’IA est maléfique. Mais certains aspects, plus complexes que la théorie des jeux, sont difficiles à entraîner dans un modèle. Avant qu’un modèle ne comprenne vraiment la notion de « mise en jeu », lui faire siéger à côté de l’échelle de montée en puissance pour donner des conseils doit être une décision extrêmement prudente, et non une valeur par défaut supposée sûre.