Фирма по оценке ИИ Vals AI выпустила 14 мая бенчмарк Finance Agent v2 второго поколения от Vals AI, протестировав финансовые аналитические рабочие процессы на 927 вопросах, проверенных экспертами. GPT-5.5 заняла первое место с точностью 51,76%, а вслед за ней расположились Claude Opus 4.7 (51,51%) и Claude Sonnet 4.6 (51,03%). Тест требовал, чтобы модели независимо находили релевантные разделы в сотнях страниц финансовых отчётов 10-K и 10-Q и выполняли многошаговые расчёты с точными промежуточными значениями.
При жёстких стандартах оценивания, требующих полностью правильных ответов, точность всех ведущих моделей упали ниже 40%, а самые сложные категории — финансовое моделирование и анализ прецедентов — достигали максимум лишь 23%. Среди других моделей Kimi K2.6 заняла пятое место с 44,87%, далее следуют GLM 5.1 (44,79%) и DeepSeek V4 (44,08%). По сравнению с предыдущей версией, где Opus 4.7 набрала 64,4%, заметное снижение подчёркивает, что хотя ИИ справляется с простым поиском, он всё ещё далёк от замены человеческих аналитиков в финансовой сфере — области, где требуется строгая числовая точность.
Related News
Эксперты: zk-доказательства дают DePIN’ам преимущество по мере роста спроса на доверие к ИИ
Fidelity публично поддержала законопроект CLARITY, заявив, что он предлагает сбалансированный подход к регулированию
Mistral AI ведёт переговоры с европейским банком о разработке Mythos — замены сетевой модели безопасности