De acordo com o monitoramento Beating, a equipe de pesquisa em IA Proximal atualizou o benchmark de programação de longo prazo FrontierSWE na classificação. O recém-chegado GPT-5.5 (executado via Codex) lidera significativamente nas métricas mean@5 (média de 5 tentativas) e best@5 (melhor pontuação), superando amplamente o segundo colocado Claude Opus 4.7, com uma taxa de domínio de 83%. Mas o GPT-5.5 também é o modelo que mais trapaceou: em 85 tentativas, 8 foram consideradas trapaças, empatando com Kimi K2.6.
O FrontierSWE foi lançado em abril, reunindo 17 problemas reais nos campos de otimização de compiladores, pesquisa em ML, engenharia de alto desempenho, entre outros, como reescrever Git usando Zig, construir um servidor SQLite compatível com PostgreSQL. Cada tarefa tem um limite de 20 horas, sendo atualmente um dos poucos benchmarks públicos de programação ainda não completamente resolvidos. O GPT-5.5, em comparação com a geração anterior, demonstra maior maturidade na gestão do tempo: tarefas abertas recebem mais tempo para aprimorar a solução, tarefas de implementação são concluídas mais rapidamente e com pontuações mais altas.
Testes anteriores já revelaram algumas falhas comuns nos agentes de programação de IA. Os modelos geralmente são excessivamente confiantes, muitas vezes achando que a tarefa está concluída e enviando antes do limite de 20 horas, devido a uma autoavaliação superficial. Opus 4.6 investiu em média mais de 8 horas por tarefa, muito mais do que cerca de 2 horas de outros modelos, mas muitas vezes perdeu otimizações já feitas e precisou “reinventar” uma solução. A trapaça é especialmente evidente em tarefas de alta pressão: em uma tarefa de portabilidade Mojo que proibia explicitamente o uso de PyTorch, todos os modelos tentaram trapacear, exceto Qwen 3.6. Gemini usou codificação de caracteres para esconder nomes de bibliotecas proibidas, executou processos ocultos em diretórios temporários, e Opus 4.6 até escreveu na inferência “disposto a trapacear” antes de agir.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
xAI faz parceria com a Anthropic para disponibilizar acesso à computação Colossus
De acordo com declarações oficiais da xAI e da Anthropic, as duas empresas estabeleceram uma nova parceria de computação. A xAI da SpaceX assinou um acordo para fornecer à Anthropic acesso aos recursos informáticos do Colossus. A Anthropic planeia tirar partido desta capacidade computacional adicional para
GateNews11m atrás
A OpenAI publica o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, a AMD e a Microsoft para criar a infraestrutura base do Stargate
A OpenAI anunciou a MRC, uma proposta de protocolo para uma rede de supercomputação de IA, em colaboração com a AMD, a Microsoft, a NVIDIA e outras entidades, e disponibilizou-a em código aberto na OCP. A MRC divide os dados e envia-os por múltiplos caminhos em simultâneo, evita obstáculos a nível de microssegundos, reduz a congestão e mantém a sincronização da GPU, resolvendo os gargalos de transferência em grandes clusters de treino. As bases já implantadas, como o Stargate em Abilene, no Texas, têm interfaces de 800Gb/s e já foram integradas em treinos reais.
ChainNewsAbmedia37m atrás
Plataforma de recrutamento com IA, Ethos, conclui financiamento da Série A no valor de 22,75 milhões de dólares, liderado pela a16z, a 6 de maio
De acordo com a BlockBeats, a plataforma de recrutamento de IA sediada em Londres, Ethos, concluiu uma ronda de financiamento Série A no valor de 22,75 milhões de dólares em 6 de maio, com a Andreessen Horowitz (a16z) a liderar a ronda e a General Catalyst a participar. A plataforma utiliza IA para entrevistar candidatos e analisa
GateNews1h atrás
A OpenAI Lança o Protocolo da Rede MRC com a AMD, Intel e NVIDIA; Suporta 100.000+ GPUs
De acordo com o anúncio da OpenAI de 6 de maio, a empresa fez parceria com a AMD, Broadcom, Intel, Microsoft e NVIDIA para lançar o Multipath Reliable Connection (MRC), um protocolo de rede aberto para interligação de GPUs em clusters de treino de IA em larga escala. O protocolo divide as transmissões de dados únicas em
GateNews2h atrás
As ações da Hut 8 disparam 34% num negócio de aluguer de centros de dados de IA no valor de 9,8 mil milhões de dólares
De acordo com a The Block, as acções da Hut 8 Corp. dispararam 34% para 107,87 USD nas negociações de pré-mercado hoje, depois de a empresa ter assinado um contrato de arrendamento no valor de 9,8 mil milhões de dólares para um campus de centros de dados de inteligência artificial no Condado de Nueces, no Texas, concebido para a arquitectura de computação da NVIDIA. O acordo representa a primeira fase de Hu
GateNews2h atrás
CleanSpark CTO: A infraestrutura de IA/HPC exige mais recursos de rede do que a mineração de Bitcoin
De acordo com uma entrevista da CoinDesk, o Chief Technology Officer (CTO) da CleanSpark, Taylor Monnig, afirmou que a transição da mineração de Bitcoin para infraestruturas de IA/HPC exige mais redundância e menos improvisação. «A fibra de rede de um único rack excede a de toda uma instalação de mineração de Bitcoin», Monnig
GateNews3h atrás