Vals AI Lança o Benchmark do Finance Agent v2; GPT-5.5 Obtém 51,76%, Todos os Modelos Ficam Abaixo de 40% Com Regras Rígidas de Avaliação

ALL-4,7%

A Beating, a empresa de avaliação de IA Vals AI divulgou seu benchmark de agente financeiro de segunda geração, o Finance Agent v2, em 14 de maio, testando fluxos de análise financeira por meio de 927 perguntas revisadas por especialistas. O GPT-5.5 liderou o ranking com uma taxa de acerto de 51,76%, seguido de perto por Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%). O teste exigiu que os modelos localizassem de forma independente seções relevantes em centenas de páginas de demonstrações financeiras 10-K e 10-Q e concluíssem cálculos de várias etapas com números intermediários precisos.

Sob padrões rigorosos de avaliação que exigem respostas totalmente corretas, as taxas de acerto de todos os modelos líderes ficaram abaixo de 40%, e as categorias mais difíceis — modelagem financeira e análise de precedentes — chegaram a apenas 23%, no máximo. Entre outros modelos, Kimi K2.6 ficou em quinto lugar com 44,87%, seguido por GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Em comparação com a versão anterior, em que Opus 4.7 obteve 64,4%, a queda significativa destaca que, embora a IA lide com recuperação simples, ela ainda está muito longe de substituir analistas humanos no domínio complexo das finanças que exige precisão numérica rigorosa.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários