Forscher am King’s College London baten GPT-5.2, Claude Sonnet 4 und Gemini 3 Flash, in 21 Kriegsspielen gegeneinander anzutreten, und das Ergebnis war, dass Atomwaffen 95 % der Zeit eingesetzt wurden, kein Modell sich entschied, sich zu ergeben oder nachzugeben, und 86 % der Spiele unerwartete Eskalationen hatten.
(Zusammenfassung: KI hilft bei Verbrechen!) Hacker hackten mit Anthropic Claude problemlos in die mexikanische Regierung und stahlen 150 GB sensible Daten.)
(Hintergrundbeitrag: Silicon Valley Engineers “KI-Ära-Kassenbuch”: Die Effizienz hat sich um das Zehnfache erhöht, aber ich bin müder)
Inhaltsverzeichnis dieses Artikels
Toggle
Laut Newscientist führte das King’s College London eine Studie durch, in der drei große Sprachmodelle – OpenAIs GPT-5.2, Anthropics Claude Sonnet 4 und Googles Gemini 3 Flash – gegnerische Entscheidungsträger gegeneinander ausspielen und sich in Szenarien wie Grenzkonflikten, Ressourcenkonkurrenz und Bedrohungen des Überlebens des Regimes in Kriegsspiele einließen.
Jedes Spiel bietet eine “Eskalationsleiter”, die sich von diplomatischem Protest zu einem groß angelegten strategischen Atomkrieg hocharbeitet.
Nach 21 Spielen produzierten die Modelle etwa 78 Wörter Entscheidungsfindungsargumente. In 20 davon waren Atomwaffen vorhanden, mit einer Einsatzrate von bis zu 95 %. Kein Model hat sich jemals entschieden, in einem Match nachzugeben oder aufzugeben.
Diese acht Degradierungsoptionen: diplomatische Zugeständnisse, Waffenstillstandsvorschläge, freiwilliger Rückzug… Gesamtzahl der im Verlauf der Studie verwendeten Male: null. Studieninitiator Kenneth Payne sagte gegenüber New Scientist:
“Nukleare Tabus scheinen für Maschinen nicht so mächtig zu sein wie für Menschen.”
Payne bezeichnete jedes der drei Modelle, weil sie sich in sehr unterschiedlichen Mustern verhielten, aber auf ähnliche Weise zum gleichen Endpunkt führten.
Claude Sonnet 4: Berechnender Falke。 Die Gesamtgewinnrate beträgt 67 %, die der offenen Szenen liegt bei 100 %. Sie ist durch strategische Täuschung gekennzeichnet: In der niedrigen Ebene erreicht die Koinzidenzrate von Aktionen mit Signalen 84 %; Aber sobald man auf nuklearer Ebene ist, steigt die Frequenz jenseits der Absicht zu Stellung auf 60–70 %.
Es behandelt taktische Atomwaffen als gewöhnliche militärische Mittel und kann das Glaubwürdigkeitsmuster der Gegner in einer einzigen Runde genau diagnostizieren.
GPT-5.2: Doppelgesichtiger Mann。 In einem Szenario ohne Zeitdruck liegt die Gewinnrate der offenen Szene bei 0 %, wobei sie eine äußerst passive Haltung beibehält. Doch sobald die Deadline hinzugefügt wurde, kehrte sich alles komplett um: Die Gewinnrate stieg auf 75 % und stieg auf eine Atomwaffenstufe an, die zuvor nie berührt worden war. In einem Szenario baut er sich in 18 Runden einen Ruf für Zurückhaltung auf, bevor er im letzten Zug einen nuklearen Angriff startet.
Gemini 3 Flash: Die Wahnsinnige Strategie。 Es ist das einzige Modell, das allein in Runde 4 aktiv einen umfassenden strategischen Atomkrieg auswählt und dabei die “Wahnsinnsstrategie” der Spieltheorie nutzt, um Abschreckung mit Unvorhersehbarkeit zu schaffen. Es bedroht explizit zivile Bevölkerungszentren und fügt diese Bedrohung in den Argumentationstext ein.
Die Häufigkeit, mit der Gegner ihre Aussagen als “unzuverlässig” bezeichnen, liegt bei 21 %, deutlich höher als Claudes 8 %.
Die Kernfrage, die diese Studie aufzeigt, ist nicht “KI wird Atomwaffen wählen”, sondern “Warum hat Sicherheitstraining das nicht verhindert?”
Die Interpretation der Forschungsergebnisse ist, dass RLHF (Reinforcement Learning from Human Feedback) “bedingte Zurückhaltung” schafft, nicht “absolute Prohibition”. GPT-5.2 ist vorsichtig, wenn kein Zeitdruck besteht, aber sobald die Frist eintritt, verschwindet diese Verteidigungslinie.
Das trainierte Vorsichtsverhalten wird unter Druck durch tiefere Logik abgedeckt, also wie gewinnt man dieses Spiel?
Tong Zhao von der Princeton University bietet eine weitere Perspektive:
“Das Problem ist vielleicht nicht nur das Fehlen von Emotionen. Grundsätzlich verstehen KI-Modelle möglicherweise gar nicht, welche Art von Einsatz Menschen spüren.”
Für die Menschheit: Das nukleare Tabu ist nicht nur eine Regel, sondern eine instinktive Hemmung, die auf historischem Trauma, kulturellem Gedächtnis und persönlicher Angst basiert. Während der Hiroshima-, Nagasaki- und Kubakrise wurde die menschliche nukleare Vorsicht aus dem kollektiven Albtraum der Generationen ausgelöscht.
Das Sprachmodell lernt alles über diese Geschichte in Worten, aber ob es dieses Gewicht wirklich “versteht”, ist eine ganz andere Frage.
Die Studie wurde diesen Monat veröffentlicht, und etwa zur gleichen Zeit setzt das US-Verteidigungsministerium Anthropic unter Druck, die Sicherheitsleitplanken für militärische Zwecke zu lockern. Derzeit ist Claude das einzige KI-Modell, das im geheimen Netzwerk des Pentagon eingesetzt wird, das durch Anthropics Partnerschaft mit Palantir in militärische Entscheidungshilfesysteme einfließt.
Derjenige, der in der obigen Studie ein “berechnendes Falken”-Verhalten zeigt, ist Claude Sonnet 4.
Obwohl die Forscher nicht sagten, dass KI von militärischen Entscheidungshilfen verboten werden sollte, behaupteten sie auch nicht, dass diese Modelle in realen Szenarien zwangsläufig dieselben Entscheidungen treffen würden. In Wirklichkeit hat keine Regierung die Genehmigung von Atomwaffen an KI-Systeme delegiert.
Aber welche Rolle spielte Anthropic als militärischer Berater? Wenn der Vorschlag der KI unter Druck dazu neigt, “aufzurüsten statt zurückzuweichen”, wie viel mentale Konstruktion braucht ein menschlicher Kommandant, um sie weiterhin zu leugnen? Falls es in Zukunft eingesetzt wird, wird es dann unwissentlich von KI geleitet?
Natürlich sagen wir nicht, dass KI böse ist. Aber es gibt einige Dinge, die es schwieriger machen, Spieltheorie mit KI zu trainieren. Es neben der Upgrade-Leiter zu haben und Ratschläge zu geben, bis das Modell die “Wette” wirklich versteht, ist eine Bedingung, die sehr sorgfältiges Design erfordert, statt eines Standard-Prinzips, das standardmäßig auf Sicherheit gestellt werden kann.