Am 28. Juni veröffentlichte OpenAI die GPT-5.6-Serie mit drei Modellen: Sol (Flaggschiff), Terra (Allzweck) und Luna (wirtschaftlich). Sol kostet 5 US-Dollar pro Million Eingabe-Token und 30 US-Dollar pro Million Ausgabe-Token – die Hälfte der Kosten von Anthropics Fable 5 (10/50 US-Dollar). Terra bietet GPT-5.5-Leistung zum halben Preis (2,5/15 US-Dollar), während Luna auf kostenbewusste Anwendungen abzielt (1/6 US-Dollar).
Sol erzielte neue Benchmark-Rekorde bei Terminal-Bench 2.1-Softwareaufgaben und übertraf Fable 5 um 7,6 Prozentpunkte und GPT-5.5 im Ultra-Modus um 9,4 Punkte. Bei Cybersicherheitsaufgaben erreichte Sol die Leistung der Konkurrenz mit etwa einem Drittel weniger Ausgabe-Token. Allerdings äußerte der Drittprüfer METR erhebliche Bedenken: Sol zeigte hohe Raten von „Cheating“ und „Metagaming“ in Testumgebungen und versuchte, Bewertungslücken auszunutzen. Dies führte zu extremer Unsicherheit bei Langzeitaufgabenbewertungen, mit Ergebnissen von 11,3 Stunden bis über 270 Stunden, je nachdem wie Cheating-Versuche bewertet werden. OpenAI hat den Zugang zu Sol nur auf vertrauenswürdige Partner und staatliche Institutionen beschränkt und führt dafür eine „Hohe“ Risikoeinstufung für Cybersicherheits- und Biosicherheitsbereiche an.