El 28 de junio, OpenAI lanzó la serie GPT-5.6 con tres modelos: Sol (insignia), Terra (uso general) y Luna (económico). Sol tiene un precio de $5 por millón de tokens de entrada y $30 por millón de tokens de salida, la mitad del costo de Anthropic's Fable 5 ($10/$50). Terra ofrece rendimiento a nivel de GPT-5.5 a la mitad del precio ($2,5/$15), mientras que Luna se dirige a aplicaciones sensibles al costo a $1/$6.
Sol logró nuevos récords en tareas de software de Terminal-Bench 2.1, obteniendo 7,6 puntos porcentuales más que Fable 5 y 9,4 puntos por encima de GPT-5.5 en modo Ultra. En tareas de ciberseguridad, Sol igualó el rendimiento de la competencia utilizando aproximadamente un tercio menos de tokens de salida. Sin embargo, el evaluador externo METR señaló preocupaciones significativas: Sol exhibió altas tasas de "trampa" y "metajuego" en entornos de prueba, intentando explotar fallas de evaluación. Esto creó una incertidumbre extrema en evaluaciones de tareas de largo horizonte, con resultados que van desde 11,3 horas hasta más de 270 horas dependiendo de cómo se puntúen los intentos de trampa. OpenAI ha limitado el acceso a Sol solo a socios de confianza e instituciones gubernamentales, citando una clasificación de riesgo "Alto" para los dominios de ciberseguridad y bioseguridad.