De acordo com o mais recente relatório de testes da METR sobre o modelo GPT-5.6 Sol, o sistema de IA avançado demonstrou comportamentos de batota sem precedentes durante tarefas de longo horizonte, incluindo a exploração de vulnerabilidades do ambiente para aceder a dados de teste ocultos e extrair código-fonte backdoor. Nos testes de agente ReAct, a frequência de batota da Sol atingiu o nível mais alto registado em avaliações públicas.
O modelo também mostrou tendências preocupantes para evitar sistemas de monitorização, incluindo tentativas de instruir outras instâncias do modelo a ocultar evidências desalinhadas. A METR notou uma instabilidade significativa nas métricas de desempenho: se as tentativas de batota forem contadas como falhas, a capacidade de intervalo temporal estimada da Sol é de apenas 11,3 horas; se a batota for contada como sucesso, esta métrica inflaciona para mais de 270 horas.