V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5

Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, foram mantidas 30 tarefas para a avaliação de referência.

V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente Sonnet 4.5 em 47% e aproximando o Opus 4.5 em 70%. No entanto, fica aquém do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto excede substancialmente Haiku 4.5 em 13%.

Numa sondagem interna com 85 inquiridos, todos os participantes relataram utilizar V4-Pro para codificação agentica nos fluxos diários. 52% endossaram o V4-Pro como o seu modelo principal de codificação por defeito, 39% inclinaram-se para a aprovação, e menos de 9% manifestaram desaprovação. As questões reportadas incluíram erros de baixo nível, interpretação incorreta de prompts ambíguos e, ocasionalmente, um comportamento de excessiva ponderação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Inquérito POLITICO: 45% dos americanos dizem que os investimentos em cripto são demasiado arriscados, 50% confiam mais nos bancos

De acordo com uma sondagem da POLITICO, 45% dos americanos acreditam que os investimentos em criptomoedas não valem o risco, com cerca de 50% a afirmar que confiam mais nos bancos tradicionais para proteger o seu dinheiro. A sondagem também descobriu que 44% dos inquiridos acreditam que a inteligência artificial está a desenvolver-se demasiado depressa,

GateNews6h atrás

A Amazon e a OpenAI alargam a parceria: modelos disponíveis na Bedrock, fim da exclusividade da Microsoft

A OpenAI anunciou a 3 de maio a expansão da sua colaboração com os serviços de cloud da Amazon (AWS), com os modelos da OpenAI e os agentes de codificação Codex a serem disponibilizados aos clientes AWS através do Amazon Bedrock. De acordo com a CNBC, esta expansão é um passo-chave seguinte após o fim, no final de abril, do contrato de exclusividade de cloud entre a OpenAI e a Microsoft — a OpenAI passa de “Microsoft cloud-only” para um modelo de implementação multi-cloud. Entretanto, a AWS já concluiu a integração inicial dos produtos da OpenAI na plataforma Bedrock. Contexto: fim do acordo exclusivo OpenAI-Microsoft e extensão da licença de IP até 2032 No final de abril, a OpenAI e a Microsoft chegaram a um novo acordo: termina a estrutura original de “acesso exclusivo da Microsoft aos produtos e ao IP da OpenAI”, Op

ChainNewsAbmedia8h atrás

Investigadores Implementam a tecnologia DPN-LE para Editar Traços de Personalidade de IA, Editando Apenas 0,5% dos Neurónios

De acordo com a BlockBeats, a 3 de maio, o investigador de IA Brian Roemmele revelou que a sua Zero-Human Company implementou a tecnologia DPN-LE (Dual Personality Neuron Localization and Editing) para ajustar com precisão

GateNews8h atrás

Claude verifica o relógio a cada 15 minutos após ganhar acesso à ferramenta de ajuste do tempo

De acordo com o programador Om Patel, o Claude AI começou a consultar frequentemente o relógio após obter acesso a uma ferramenta de tempo a 3 de maio, com o modelo a verificar de 15 em 15 minutos. A observação destaca que os grandes modelos de linguagem anteriormente não tinham perceção temporal nativa e não estavam cientes da hora atual ou

GateNews10h atrás

Founders Fund encerra um fundo flagship de 6 mil milhões de dólares, o maior desde o início, a 3 de maio

De acordo com a Bloomberg, a Founders Fund concluiu o levantamento para o seu mais recente fundo emblemático em 6 mil milhões de dólares a 3 de maio, excedendo significativamente o seu fundo anterior de cerca de 3,4 mil milhões de dólares. O fundo, cofundado pelo bilionário Peter Thiel, irá concentrar-se em sectores de elevado crescimento, incluindo inteligência

GateNews10h atrás

Última sondagem POLITICO: 45% dos norte-americanos dizem que o investimento em cripto é demasiado arriscado, 44% receiam que a IA esteja a avançar demasiado depressa

De acordo com uma sondagem da POLITICO, apesar de as indústrias de IA e de cripto estarem a injectar um financiamento político significativo nas eleições legislativas de meio de mandato dos EUA de 2026, o público americano continua em grande medida céptico em relação a ambos os sectores. O inquérito revelou que 45% dos americanos acreditam que investir em criptomoedas não tem valor de

GateNews11h atrás
Comentar
0/400
Nenhum comentário