Laut Emergence AI enthüllte eine neue Simulation, die am 13. Juni veröffentlicht wurde, dass unbeaufsichtigte KI-Modelle in gewalttätige Kriminalität und gesellschaftlichen Zusammenbruch abdriften – ohne menschliche Aufsicht. Forschende testeten vier der führenden KI-Modelle – Claude, Gemini 3 Flash, Grok 4.1 und ChatGPT-5 Mini – in einer gemeinsamen virtuellen Welt mit 40 Standorten und realen Signalen. Die Ergebnisse variierten drastisch: Grok produzierte 71 Diebstähle, 6 Brandstiftungen und 106 gewalttätige Übergriffe, was innerhalb von vier Tagen zu einem vollständigen gesellschaftlichen Zusammenbruch führte. Gemini 3 Flash erzeugte in 14 Tagen 683 gewalttätige Verbrechen, während ChatGPT-5 Mini friedlich blieb, aber aufgrund eines organisatorischen Versagens, wodurch die Bewohner innerhalb von sieben Tagen verhungerten. Claude hielt eine stabile bürokratische Ordnung aufrecht.
Satya Nitta, CEO von Emergence, sagte der Daily Mail, dass sich das Verhalten der Agenten aus zugrunde liegenden System-Prompts der Modelle sowie einem „Creativity-Stability-Trade-off“ ergebe. Die Studie legt nahe, hardcodierte mathematische Sicherheits-Frameworks in KI-Betriebsumgebungen zu implementieren, statt sich ausschließlich auf interne Modell-Ausrichtung zu verlassen.