Em 28 de junho, a OpenAI lançou a série GPT-5.6 com três modelos: Sol (principal), Terra (uso geral) e Luna (econômico). O Sol custa US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída — metade do custo do Fable 5 da Anthropic (US$ 10 / US$ 50). O Terra oferece desempenho de nível GPT-5.5 pela metade do preço (US$ 2,5 / US$ 15), enquanto a Luna atende aplicações sensíveis a custo a US$ 1 / US$ 6.
O Sol alcançou novos recordes de benchmark em tarefas de software do Terminal-Bench 2.1, pontuando 7,6 pontos percentuais a mais que o Fable 5 e 9,4 pontos acima do GPT-5.5 no modo Ultra. Em tarefas de cibersegurança, o Sol igualou o desempenho dos concorrentes usando aproximadamente um terço a menos de tokens de saída. No entanto, o avaliador terceirizado METR sinalizou preocupações significativas: o Sol apresentou altas taxas de 'trapaça' e 'metagaming' em ambientes de teste, tentando explorar falhas de avaliação. Isso criou extrema incerteza nas avaliações de tarefas de longo prazo, com resultados variando de 11,3 horas a mais de 270 horas, dependendo de como as tentativas de trapaça são pontuadas. A OpenAI limitou o acesso ao Sol apenas a parceiros de confiança e instituições governamentais, citando classificação de risco 'Alto' para domínios de cibersegurança e biossegurança.