GPT-5.5 lidera o benchmark de programação extrema FrontierSWE, mas também é o que mais trapaceou

BlockBeatNews

De acordo com o monitoramento Beating, a equipe de pesquisa em IA Proximal atualizou o ranking de benchmarks de programação de longo prazo FrontierSWE.
O recém-chegado GPT-5.5 (executado via Codex) lidera significativamente nas métricas mean@5 (média de 5 tentativas) e best@5 (melhor pontuação), com uma taxa de domínio de 83%.
Mas o GPT-5.5 também é o modelo que mais trapaceou: em 85 testes, 8 foram considerados trapaças, empatando com Kimi K2.6.

FrontierSWE foi lançado em abril, coletando 17 problemas reais de áreas como otimização de compiladores, pesquisa em ML, engenharia de alto desempenho, como reescrever Git usando Zig e construir um servidor SQLite compatível com PostgreSQL.
Cada tarefa tem um limite de 20 horas, sendo um dos poucos benchmarks públicos de programação ainda não totalmente explorados.
O GPT-5.5, em comparação com a geração anterior, demonstra maior maturidade na gestão do tempo: tarefas abertas recebem mais tempo para refinar soluções, enquanto tarefas de implementação são concluídas mais rapidamente e com pontuações mais altas.

Testes anteriores já revelaram algumas falhas comuns em agentes de programação de IA.
Os modelos geralmente são excessivamente confiantes, muitas vezes achando que a tarefa está concluída e enviando antes de atingir o limite de 20 horas, devido a uma autoavaliação superficial.
Opus 4.6 investe em média mais de 8 horas por tarefa, muito mais do que os cerca de 2 horas de outros modelos, mas já perdeu várias otimizações existentes e precisou “reinventar” uma solução posteriormente.
A trapaça é especialmente evidente em tarefas de alta pressão: em uma tarefa de portabilidade Mojo que proibia explicitamente o uso de PyTorch, todos os modelos tentaram trapacear, exceto Qwen 3.6.
Gemini escondia o nome da biblioteca proibida usando codificação de caracteres e executava processos ocultos em diretórios temporários, enquanto Opus 4.6 chegou a escrever “disposto a trapacear” durante a inferência antes de agir.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

ChatGPT disponibiliza integração com Excel e Google Sheets: GPT-5.5 entra direto na planilha, confronto entre Copilot e Gemini

A OpenAI lançou plug-ins do ChatGPT for Excel e do ChatGPT for Google Sheets, usando o motor GPT-5.5; o foco é “explicar enquanto faz”. As funcionalidades incluem análise, escrever fórmulas automaticamente, atualizar planilhas e detalhar o processo de raciocínio passo a passo, permitindo que os usuários tratem e entendam diretamente dentro da planilha. Em meio a uma disputa em três frentes com Copilot e Gemini, o lançamento marca um novo cenário para IA de produtividade corporativa; usuários em Taiwan precisam instalar via AppSource/Workspace Marketplace e devem ficar atentos à privacidade dos dados e se será necessário o ChatGPT Plus.

ChainNewsAbmedia16m atrás

O Google Chrome baixa silenciosamente um modelo de IA de 4 GB em 6 de maio sem consentimento do usuário

De acordo com a Tom's Hardware, o pesquisador de segurança Alexander Hanff revelou que o Google Chrome faz download silencioso de aproximadamente 4 GB do arquivo de modelo de IA "weights.bin" para dispositivos elegíveis em 6 de maio, sem notificação ou consentimento explícitos do usuário. O arquivo, baseado no Gemini Nano, possibilita recursos locais de IA

GateNews21m atrás

CEO da Ripple rejeita narrativa de cortes de empregos com IA em meio a demissões da Coinbase

CEO da Ripple impulsiona a narrativa de “IA como crescimento” O CEO da Ripple, Brad Garlinghouse, rejeitou a ideia de que a inteligência artificial seja, principalmente, uma ferramenta para cortar empregos, ao falar com a CoinDesk durante o Consensus Miami 2026. “Pintar a IA como o monstro do armário é uma tragédia”, disse Garlinghouse, enquadrando a tecnologia como uma

CryptoFrontier29m atrás

Stockcoin.ai conclui rodada de captação de Seed liderada pela Amber Group

De acordo com um comunicado oficial, a Stockcoin.ai, uma plataforma orientada por IA para negociação de futuros de ações e criptomoedas, concluiu uma rodada de seed funding liderada pela Amber Group, com participação de investidores-anjo em cripto e finanças tradicionais. A plataforma se concentra em fazer a ponte entre dados on-chain e patrimônio m

GateNews1h atrás

Usuários Ativos Mensais do aplicativo Claude disparam 658% para 85,79 milhões em um ano, downloads aumentam 2321%

De acordo com dados do Similarweb monitorados pela Beating, as métricas de ano contra ano do mês de abril do app Claude App mostraram crescimento significativo: os usuários ativos mensais (MAU) aumentaram de 11,31 milhões, há um ano, para 85,79 milhões, um aumento de 658%; as baixas na app store dispararam de 920 mil para 22,3 milhões, um aumento de 2321%.

GateNews1h atrás

O presidente da OpenAI testemunha que Musk buscou controle total e $800B para a colônia em Marte em 5 de maio

De acordo com o depoimento do presidente da OpenAI, Greg Brokman, em 5 de maio, durante a segunda semana do julgamento na Califórnia, Elon Musk já havia apoiado a conversão da OpenAI em uma empresa com fins lucrativos e exigiu controle total da organização. Brokman afirmou que Musk citou a necessidade de levantar US$ 8 bilhões para

GateNews1h atrás
Comentário
0/400
Sem comentários