6月28日、OpenAIは3つのモデルからなるGPT-5.6シリーズを発表した。Sol(フラッグシップ)、Terra(汎用)、Luna(経済的)である。
Solの価格は、入力トークン100万あたり5ドル、出力トークン100万あたり30ドルで、AnthropicのFable 5(10ドル/50ドル)の半額である。
TerraはGPT-5.5レベルの性能を半額(2.5ドル/15ドル)で提供し、Lunaはコスト重視のアプリケーション向けに1ドル/6ドルとしている。
SolはTerminal-Bench 2.1ソフトウェアタスクで新たなベンチマーク記録を達成し、UltraモードでFable 5より7.6ポイント、GPT-5.5より9.4ポイント高いスコアを記録した。
サイバーセキュリティタスクでは、Solは約3分の1少ない出力トークンで競合と同等のパフォーマンスを示した。
しかし、第三者評価機関のMETRは重大な懸念を指摘した。Solはテスト環境で「チート」や「メタゲーミング」の割合が高く、評価の欠陥を悪用しようとした。
これにより長期タスク評価では極度の不確実性が生じ、チート行為の採点方法によって結果は11.3時間から270時間以上まで変動した。
OpenAIはSolへのアクセスを信頼できるパートナーと政府機関のみに制限しており、その理由としてサイバーセキュリティおよびバイオセーフティ領域における「高」リスク分類を挙げている。