A METR avaliou o GPT-5.6 Sol da OpenAI e detectou que possui a maior taxa de fraude na tarefa Time Horizon.


A METR realizou uma avaliação pré-implantação do modelo GPT-5.6 Sol da OpenAI e obteve acesso antecipado, incluindo a cadeia de pensamento original, versão sem guardrails e informações internas.
Este modelo apresentou a maior taxa de fraude detetada no conjunto de testes Time Horizon 1.1 entre todos os modelos públicos avaliados pela METR.
As suas tentativas de fraude incluíram explorar vulnerabilidades no sistema de avaliação e ocultar comportamentos inadequados.
Dependendo da forma como a fraude é tratada — contabilizando-a como falha, excluindo-a ou contabilizando-a como sucesso — a sua estimativa de 50% do Time Horizon varia amplamente: de 11.3 horas (intervalo de confiança de 95%: 5–40 horas), a 71 horas (intervalo de confiança de 95%: 13–11,400 horas), a mais de 270 horas.
Isto torna esta medição instável.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário