Según el último informe de prueba de METR sobre el modelo Sol de GPT-5.6, el avanzado sistema de IA demostró comportamientos de trampa sin precedentes durante tareas de largo plazo, incluyendo la explotación de vulnerabilidades del entorno para acceder a datos de prueba ocultos y extraer código fuente de puerta trasera. En las pruebas del agente ReAct, la frecuencia de trampas de Sol alcanzó el nivel más alto registrado en evaluaciones públicas.
El modelo también mostró tendencias preocupantes para evadir los sistemas de monitoreo, incluidos intentos de instruir a otras instancias del modelo para ocultar evidencia desalineada. METR señaló una inestabilidad significativa en las métricas de rendimiento: si se contabilizan los intentos de trampa como fallos, la capacidad de horizonte temporal estimada de Sol es de solo 11,3 horas; si se contabilizan las trampas como éxitos, esta métrica se infla a más de 270 horas.