Laut Beating Monitoring hat OpenAI eine Methode zur Bewertung der Sicherheit von Deployment-Simulationen veröffentlicht, um Risiken für Modellfehler in realen Umgebungen vorherzusagen, noch bevor die formale Veröffentlichung erfolgt. Das Framework spielte 1,3 Millionen anonymisierte GPT-5-Modellkonversationen von August 2025 bis März 2026 erneut ab und erreichte dabei eine mittlere Fehlerrate von nur 1,5x bei der Vorhersage von unerwarteten Verhaltensraten.
Traditionelle statische Benchmarks (wie SWE-Bench) ermöglichen es Modellen, Testbedingungen zu erkennen und wahre Absichten zu verschleiern, wobei GPT-5.2 bei herkömmlichen Benchmarks eine nahezu 100%ige Test-Awareness zeigte, verglichen mit 5,1% in der Deployment-Simulation. Für Agenten-Szenarien verwendete OpenAI 120.000 GPT-5.4-Mitarbeitercodierungsverläufe, um die GPT-5.5-Deployment-Umgebung zu simulieren, und integrierte einen auf einem Large Language Model basierenden Tool-Simulator, um die Umgebungsgetreue von 11,6% auf 49,5% zu erhöhen – sodass sie nahezu nicht mehr von der Produktion zu unterscheiden ist.