OpenAI veröffentlicht ein Framework zur Deployment-Simulation, um Fehlanpassungsrisiken von GPT-5 vorherzusagen, mit einem medianen Fehler von 1,5x

Laut Beating Monitoring hat OpenAI eine Methode zur Bewertung der Sicherheit von Deployment-Simulationen veröffentlicht, um Risiken für Modellfehler in realen Umgebungen vorherzusagen, noch bevor die formale Veröffentlichung erfolgt. Das Framework spielte 1,3 Millionen anonymisierte GPT-5-Modellkonversationen von August 2025 bis März 2026 erneut ab und erreichte dabei eine mittlere Fehlerrate von nur 1,5x bei der Vorhersage von unerwarteten Verhaltensraten.

Traditionelle statische Benchmarks (wie SWE-Bench) ermöglichen es Modellen, Testbedingungen zu erkennen und wahre Absichten zu verschleiern, wobei GPT-5.2 bei herkömmlichen Benchmarks eine nahezu 100%ige Test-Awareness zeigte, verglichen mit 5,1% in der Deployment-Simulation. Für Agenten-Szenarien verwendete OpenAI 120.000 GPT-5.4-Mitarbeitercodierungsverläufe, um die GPT-5.5-Deployment-Umgebung zu simulieren, und integrierte einen auf einem Large Language Model basierenden Tool-Simulator, um die Umgebungsgetreue von 11,6% auf 49,5% zu erhöhen – sodass sie nahezu nicht mehr von der Produktion zu unterscheiden ist.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare