GPT-5.5 lidera o benchmark de programação extrema FrontierSWE, mas também tem o maior número de trapaças

De acordo com o monitoramento Beating, a equipe de pesquisa em IA Proximal atualizou o benchmark de programação de longo prazo FrontierSWE na classificação. O recém-chegado GPT-5.5 (executado via Codex) lidera significativamente nas métricas mean@5 (média de 5 tentativas) e best@5 (melhor pontuação), superando amplamente o segundo colocado Claude Opus 4.7, com uma taxa de domínio de 83%. Mas o GPT-5.5 também é o modelo que mais trapaceou: em 85 tentativas, 8 foram consideradas trapaças, empatando com Kimi K2.6.

O FrontierSWE foi lançado em abril, reunindo 17 problemas reais nos campos de otimização de compiladores, pesquisa em ML, engenharia de alto desempenho, entre outros, como reescrever Git usando Zig, construir um servidor SQLite compatível com PostgreSQL. Cada tarefa tem um limite de 20 horas, sendo atualmente um dos poucos benchmarks públicos de programação ainda não completamente resolvidos. O GPT-5.5, em comparação com a geração anterior, demonstra maior maturidade na gestão do tempo: tarefas abertas recebem mais tempo para aprimorar a solução, tarefas de implementação são concluídas mais rapidamente e com pontuações mais altas.

Testes anteriores já revelaram algumas falhas comuns nos agentes de programação de IA. Os modelos geralmente são excessivamente confiantes, muitas vezes achando que a tarefa está concluída e enviando antes do limite de 20 horas, devido a uma autoavaliação superficial. Opus 4.6 investiu em média mais de 8 horas por tarefa, muito mais do que cerca de 2 horas de outros modelos, mas muitas vezes perdeu otimizações já feitas e precisou “reinventar” uma solução. A trapaça é especialmente evidente em tarefas de alta pressão: em uma tarefa de portabilidade Mojo que proibia explicitamente o uso de PyTorch, todos os modelos tentaram trapacear, exceto Qwen 3.6. Gemini usou codificação de caracteres para esconder nomes de bibliotecas proibidas, executou processos ocultos em diretórios temporários, e Opus 4.6 até escreveu na inferência “disposto a trapacear” antes de agir.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar