GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código “Spud” e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex ignorou o layout mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos (77.8%), ainda não lançado da Anthropic.

Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6 mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhar o ritmo da fronteira mas não liderar,” posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que “o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade,” comentando que “o Claude venceu o modelo chinês na sua própria língua.”

O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por “custo por tarefa” e não por “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por milhão de tokens), mas conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Da sanita aos fabricantes de especiarias: a transbordação do valor da cadeia de abastecimento da IA impulsionou que empresas?

A vaga de dividendos da onda da inteligência artificial continua a espalhar-se, indo de uma empresa como a Nvidia até gigantes tecnológicos como a Taiwan Semiconductor Manufacturing Company, e agora até empresas japonesas que fabricam sanitas e um grupo alimentar que começou com glutamato monossódico — todos se tornaram, silenciosamente, vencedores ocultos desta febre da construção de infraestruturas para IA. A sua ascensão revelou uma tendência-chave: o efeito de transbordo de valor das cadeias de abastecimento de IA já se infiltrou profundamente na indústria transformadora tradicional, abrindo caminho para oportunidades de transformação ainda mais diversas. Fabricante de sanitas TOTO: tecnologia cerâmica acerta, de forma inesperada, na procura dos processos de wafer A japonesa TOTO, grande marca de casas de banho e do sector de sanitários, é conhecida mundialmente pelas suas tampas de sanita de alta qualidade, com mais de 40 anos de dedicação à produção cerâmica. Ainda assim, é precisamente esta arte tradicional que, à primeira vista, parece nada ter a ver com tecnologia, que lhe deu um palco totalmente novo nos processos de semicondutores. A TOTO anunciou recentemente que vai utilizar a sua especialização em tecnologia cerâmica para produzir um Electrostatic Chuck para a fabricação de chips. Mal a notícia surgiu, a cotação das ações registou um

ChainNewsAbmedia1h atrás

MediaTek Contrata Ex-Executivo da TSMC para Expansão de Chips de IA

O designer de chips taiwanês MediaTek nomeou o antigo executivo da Taiwan Semiconductor Manufacturing Co (TSMC) Douglas Yu como conselheiro a tempo parcial a 4 de maio, segundo a Reuters. A medida apoia a expansão da MediaTek para o mercado de chips de IA e o seu avanço na tecnologia de empacotamento. Advanced

CryptoFrontier1h atrás

A OpenAI faz parceria com a Yubico para oferecer chaves de segurança de hardware personalizadas

De acordo com a Yubico, a OpenAI fez parceria com o fabricante sueco de chaves de segurança baseado em Estocolmo para oferecer YubiKeys personalizados através do seu programa de Advanced Account Security. O programa tem como alvo utilizadores com um risco mais elevado de ataques de phishing e de tomada de conta. O pacote inclui uma YubiKey C NFC para dispositivos móveis e uma Y

GateNews1h atrás

A Índia alerta para riscos cibernéticos após o AI Mythos da Anthropic violar as defesas em 83 dos 100 casos de teste

De acordo com o The Economic Times, a agência de cibersegurança da Índia emitiu recentemente um aviso de elevada severidade depois de o AI Mythos da Anthropic ter demonstrado a capacidade de encontrar dezenas de milhares de vulnerabilidades e de converter erros de software em ataques exploráveis em minutos. Palo Alto Networks' Unit 42 e

GateNews3h atrás

Um investidor, com 1 ação, consegue ficar com 480 ações — a oportunidade de entrar antes da próxima cisão de ações da Nvidia é agora?

Este texto recorda várias divisões de acções da Nvidia desde a sua entrada em bolsa em 1999, que aumentaram as participações dos acionistas iniciais para 480 acções através desses desdobramentos, e que, em 2024, ajustaram o preço das acções para cerca de 120 dólares com um desdobramento de 10 por 1. Impulsionada pela procura global por infra-estruturas de IA, a Nvidia tornou-se um fornecedor central para os centros de dados, com uma capitalização bolsista a aproximar-se dos 5 biliões de dólares, e a dinâmica de crescimento mantém-se forte. Os analistas prevêem que a próxima divisão dependerá do preço das acções e do desempenho de crescimento; neste momento, o preço ronda os 198 dólares e, se o crescimento continuar, ou se surgir uma nova oportunidade de entrada, pode haver margem para novas reacções do mercado, mas trata-se apenas de uma observação do mercado, não de uma recomendação de investimento.

ChainNewsAbmedia3h atrás

A Google e a VNG lançam o Laboratório de IA Aplicada no Vietname a 4 de maio

De acordo com a VNG Corporation, a Google, a VNG e a Universidade Nacional do Vietname, Cidade de Ho Chi Minh, lançaram um Laboratório de IA Aplicada no Vietname através do Saigon AI Hub a 4 de maio. O Google Labs e a AI Future Funds vão proporcionar às equipas selecionadas acesso antecipado às tecnologias da Google, apoio técnico da Google e

GateNews3h atrás
Comentar
0/400
Nenhum comentário