Según Beating, la firma de evaluación de IA Vals AI lanzó su benchmark de agente financiero de segunda generación v2 el 14 de mayo, poniendo a prueba flujos de trabajo de análisis financiero mediante 927 preguntas revisadas por expertos. GPT-5.5 encabezó el ranking con una tasa de acierto del 51,76%, seguido de cerca por Claude Opus 4.7 (51,51%) y Claude Sonnet 4.6 (51,03%). La prueba exigía que los modelos localizaran de forma independiente secciones relevantes a través de cientos de páginas de estados financieros 10-K y 10-Q, y completaran cálculos de varios pasos con cifras intermedias precisas.
Bajo estrictos criterios de calificación que requieren respuestas completamente correctas, las tasas de acierto de todos los modelos líderes cayeron por debajo del 40%, y las categorías más difíciles—modelado financiero y análisis de precedentes—alcanzaron solo 23% como máximo. Entre otros modelos, Kimi K2.6 ocupó el quinto lugar con 44,87%, seguido por GLM 5.1 (44,79%) y DeepSeek V4 (44,08%). En comparación con la versión anterior, donde Opus 4.7 obtuvo 64,4%, la caída significativa subraya que, si bien la IA gestiona la recuperación sencilla, todavía está lejos de reemplazar a los analistas humanos en el complejo ámbito de las finanzas que exige precisión numérica estricta.
Related News
Los expertos dicen que las pruebas zk dan a las DePIN una ventaja a medida que aumenta la demanda de confianza en la IA
Fidelity respalda públicamente el proyecto de ley CLARITY, afirmando que ofrece un enfoque regulatorio equilibrado
Mistral AI y bancos europeos negocian para desarrollar un modelo alternativo de ciberseguridad llamado Mythos