O número que todos os principais laboratórios de IA têm usado para reivindicar supremacia na codificação foi simplesmente declarado sem sentido. A OpenAI publicou esta semana um artigo a anunciar que o SWE-bench Verified, o benchmark de referência para medir as capacidades de codificação de IA, está tão cheio de testes falhos e fugas de dados de treino que já não fornece informações úteis sobre se um modelo consegue realmente escrever software. O funcionamento do benchmark é o seguinte: fornece-se a uma IA um problema real do GitHub de um projeto popular de Python, pede-se que corrija o erro sem ver os testes, e verifica-se se a sua correção faz passar os testes sem causar outros problemas.
A OpenAI criou o SWE-bench Verified em agosto de 2024 como uma versão mais limpa do benchmark original de 2023, recrutando 93 engenheiros de software para filtrar tarefas impossíveis ou mal concebidas. A limpeza foi suficientemente eficaz para que todos os principais laboratórios começassem a citar as pontuações como prova de progresso. Quando a Anthropic lançou o Claude Opus 4 em maio de 2025, a Decrypt reportou que o modelo obteve 72,5% no SWE-bench Verified, superando o GPT-4.1 com 54,6% e o Gemini 2.5 Pro com 63,2%. Era o benchmark de codificação que importava. Desde então, todos os laboratórios de IA, de América a China, têm mostrado o desempenho no SWE para reivindicar o trono como o melhor modelo de capacidades de codificação.
Imagem: Minimax
Agora a OpenAI afirma que essa corrida foi parcialmente uma ilusão. Segundo o relatório, a equipa auditou 138 tarefas que o GPT-5.2 falhou consistentemente em 64 execuções independentes, com seis engenheiros a rever cada uma. Concluiu-se que 59,4% dessas tarefas estão quebradas. Cerca de 35,5% têm testes tão restritos que exigem um nome de função específico nunca mencionado na descrição do problema. Outros 18,8% verificam funcionalidades que nem faziam parte do problema original, recolhidas de pull requests não relacionados. O problema da contaminação funciona mais ou menos assim: o SWE-bench recolhe problemas de repositórios open-source que a maioria das empresas de IA rastreia ao construir conjuntos de treino. A OpenAI testou se o GPT-5.2, Claude Opus 4.5 e Gemini 3 Flash Preview tinham visto as soluções do benchmark durante o treino. Todos tinham. Dado apenas um ID de tarefa e uma dica breve, cada modelo conseguiu reproduzir a correção exata do código a partir da memória, incluindo nomes de variáveis e comentários inline que não aparecem em nenhuma parte da descrição do problema. Num caso, os logs de raciocínio do GPT-5.2 mostraram que ele deduziu que um parâmetro específico tinha sido “adicionado por volta do Django 4.1” — um detalhe encontrado apenas nas notas de lançamento do Django, não na descrição da tarefa. Era uma resposta a uma questão cuja resposta já tinha visto. A OpenAI recomenda agora o SWE-bench Pro, um benchmark mais recente da Scale AI que usa bases de código mais diversificadas e licenças que reduzem a exposição aos dados de treino. A queda de desempenho é chocante: modelos que ultrapassaram 70% no antigo Verified pontuaram cerca de 23% no SWE-bench Pro na divisão pública, e ainda menos nas tarefas privadas. Na tabela atual do SWE-bench Verified público, a OpenAI está longe do pódio do benchmark. Retirar um benchmark onde se está a perder e promover outro onde todos começam a 23% redefine a tabela de classificação num momento conveniente e torna as reivindicações dos concorrentes menos impressionantes.
Isto é especialmente importante considerando que a tão aguardada nova versão do DeepSeek se diz capaz de superar ou ficar muito próxima dos modelos de IA americanos, especialmente em tarefas de agente e codificação com um modelo open-source gratuito. Esse modelo pode estar a dias de ser lançado, e o SWE-bench Verified pode ser uma métrica-chave para avaliar a sua qualidade.
A OpenAI afirmou que está a desenvolver avaliações de autoria privada que não serão divulgadas antes dos testes, apontando para o seu projeto GDPVal, onde especialistas do domínio criam tarefas originais avaliadas por revisores humanos treinados. O problema do benchmark não é novo, nem exclusivo da codificação. Os laboratórios de IA já passaram por várias avaliações, cada uma útil até os modelos serem treinados nelas ou até as tarefas se mostrarem demasiado restritas. Mas o que torna este caso notável é que a OpenAI promoveu o SWE-bench Verified, apoiou-o em várias versões de modelos, e agora documenta publicamente o quanto ele falhou — inclusive ao mostrar o seu próprio modelo a trapacear nele.