根据 Beating,AI 评估公司 Vals AI 于 5 月 14 日发布其第二代 Finance Agent v2 基准测试,通过 927 道经专家审核的问题来测试金融分析工作流。GPT-5.5 以 51.76% 的准确率领跑,其次是 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)。该测试要求模型能够在 10-K 和 10-Q 财务报表的数百页中独立定位相关部分,并使用精确的中间数值完成多步骤计算。
在要求完全正确答案的严格评分标准下,所有领先模型的准确率均降至 40% 以下,最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中,Kimi K2.6 以 44.87% 排名第五,随后是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。与上一版本中 Opus 4.7 得分 64.4% 相比,这种显著下滑表明:尽管 AI 能处理简单检索,但在金融领域这类需要严格数值精度的复杂场景中,它仍远未能取代人类分析师。
相关快讯