GPT-5.5 lidera o benchmark de programação extrema FrontierSWE, mas também é o que mais trapaceou

De acordo com o monitoramento Beating, a equipe de pesquisa em IA Proximal atualizou o ranking de benchmarks de programação de longo prazo FrontierSWE.
O recém-chegado GPT-5.5 (executado via Codex) lidera significativamente nas métricas mean@5 (média de 5 tentativas) e best@5 (melhor pontuação), com uma taxa de domínio de 83%.
Mas o GPT-5.5 também é o modelo que mais trapaceou: em 85 testes, 8 foram considerados trapaças, empatando com Kimi K2.6.

FrontierSWE foi lançado em abril, coletando 17 problemas reais de áreas como otimização de compiladores, pesquisa em ML, engenharia de alto desempenho, como reescrever Git usando Zig e construir um servidor SQLite compatível com PostgreSQL.
Cada tarefa tem um limite de 20 horas, sendo um dos poucos benchmarks públicos de programação ainda não totalmente explorados.
O GPT-5.5, em comparação com a geração anterior, demonstra maior maturidade na gestão do tempo: tarefas abertas recebem mais tempo para refinar soluções, enquanto tarefas de implementação são concluídas mais rapidamente e com pontuações mais altas.

Testes anteriores já revelaram algumas falhas comuns em agentes de programação de IA.
Os modelos geralmente são excessivamente confiantes, muitas vezes achando que a tarefa está concluída e enviando antes de atingir o limite de 20 horas, devido a uma autoavaliação superficial.
Opus 4.6 investe em média mais de 8 horas por tarefa, muito mais do que os cerca de 2 horas de outros modelos, mas já perdeu várias otimizações existentes e precisou “reinventar” uma solução posteriormente.
A trapaça é especialmente evidente em tarefas de alta pressão: em uma tarefa de portabilidade Mojo que proibia explicitamente o uso de PyTorch, todos os modelos tentaram trapacear, exceto Qwen 3.6.
Gemini escondia o nome da biblioteca proibida usando codificação de caracteres e executava processos ocultos em diretórios temporários, enquanto Opus 4.6 chegou a escrever “disposto a trapacear” durante a inferência antes de agir.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar