OpenAI Diz que Benchmark Usado para Medir a Habilidade de Programação de IA Está 'Contaminado'—Veja Por Quê

Decrypt

2026-02-24 21:35:30

Resumo

A OpenAI argumenta que o SWE-bench Verified já não reflete a verdadeira capacidade de codificação, pois o benchmark estaria contaminado.
Agora está a promover o SWE-bench Pro como uma substituição mais difícil.
As pontuações caíram de cerca de 70% para cerca de 23% no novo benchmark,

O número que todos os principais laboratórios de IA têm usado para reivindicar supremacia na codificação foi simplesmente declarado sem sentido. A OpenAI publicou esta semana um artigo a anunciar que o SWE-bench Verified, o benchmark de referência para medir as capacidades de codificação de IA, está tão cheio de testes falhos e fugas de dados de treino que já não fornece informações úteis sobre se um modelo consegue realmente escrever software. O funcionamento do benchmark é o seguinte: fornece-se a uma IA um problema real do GitHub de um projeto popular de Python, pede-se que corrija o erro sem ver os testes, e verifica-se se a sua correção faz passar os testes sem causar outros problemas.

A OpenAI criou o SWE-bench Verified em agosto de 2024 como uma versão mais limpa do benchmark original de 2023, recrutando 93 engenheiros de software para filtrar tarefas impossíveis ou mal concebidas. A limpeza foi suficientemente eficaz para que todos os principais laboratórios começassem a citar as pontuações como prova de progresso. Quando a Anthropic lançou o Claude Opus 4 em maio de 2025, a Decrypt reportou que o modelo obteve 72,5% no SWE-bench Verified, superando o GPT-4.1 com 54,6% e o Gemini 2.5 Pro com 63,2%. Era o benchmark de codificação que importava. Desde então, todos os laboratórios de IA, de América a China, têm mostrado o desempenho no SWE para reivindicar o trono como o melhor modelo de capacidades de codificação.

Imagem: Minimax

Agora a OpenAI afirma que essa corrida foi parcialmente uma ilusão. Segundo o relatório, a equipa auditou 138 tarefas que o GPT-5.2 falhou consistentemente em 64 execuções independentes, com seis engenheiros a rever cada uma. Concluiu-se que 59,4% dessas tarefas estão quebradas. Cerca de 35,5% têm testes tão restritos que exigem um nome de função específico nunca mencionado na descrição do problema. Outros 18,8% verificam funcionalidades que nem faziam parte do problema original, recolhidas de pull requests não relacionados. O problema da contaminação funciona mais ou menos assim: o SWE-bench recolhe problemas de repositórios open-source que a maioria das empresas de IA rastreia ao construir conjuntos de treino. A OpenAI testou se o GPT-5.2, Claude Opus 4.5 e Gemini 3 Flash Preview tinham visto as soluções do benchmark durante o treino. Todos tinham. Dado apenas um ID de tarefa e uma dica breve, cada modelo conseguiu reproduzir a correção exata do código a partir da memória, incluindo nomes de variáveis e comentários inline que não aparecem em nenhuma parte da descrição do problema. Num caso, os logs de raciocínio do GPT-5.2 mostraram que ele deduziu que um parâmetro específico tinha sido “adicionado por volta do Django 4.1” — um detalhe encontrado apenas nas notas de lançamento do Django, não na descrição da tarefa. Era uma resposta a uma questão cuja resposta já tinha visto. A OpenAI recomenda agora o SWE-bench Pro, um benchmark mais recente da Scale AI que usa bases de código mais diversificadas e licenças que reduzem a exposição aos dados de treino. A queda de desempenho é chocante: modelos que ultrapassaram 70% no antigo Verified pontuaram cerca de 23% no SWE-bench Pro na divisão pública, e ainda menos nas tarefas privadas. Na tabela atual do SWE-bench Verified público, a OpenAI está longe do pódio do benchmark. Retirar um benchmark onde se está a perder e promover outro onde todos começam a 23% redefine a tabela de classificação num momento conveniente e torna as reivindicações dos concorrentes menos impressionantes.

Isto é especialmente importante considerando que a tão aguardada nova versão do DeepSeek se diz capaz de superar ou ficar muito próxima dos modelos de IA americanos, especialmente em tarefas de agente e codificação com um modelo open-source gratuito. Esse modelo pode estar a dias de ser lançado, e o SWE-bench Verified pode ser uma métrica-chave para avaliar a sua qualidade.

A OpenAI afirmou que está a desenvolver avaliações de autoria privada que não serão divulgadas antes dos testes, apontando para o seu projeto GDPVal, onde especialistas do domínio criam tarefas originais avaliadas por revisores humanos treinados. O problema do benchmark não é novo, nem exclusivo da codificação. Os laboratórios de IA já passaram por várias avaliações, cada uma útil até os modelos serem treinados nelas ou até as tarefas se mostrarem demasiado restritas. Mas o que torna este caso notável é que a OpenAI promoveu o SWE-bench Verified, apoiou-o em várias versões de modelos, e agora documenta publicamente o quanto ele falhou — inclusive ao mostrar o seu próprio modelo a trapacear nele.

Ver original

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Comentar

0/400

Nenhum comentário