Vals AI выпустила бенчмарк v2 Finance Agent; GPT-5.5 набрала 51,76%, все модели не дотянули до 40% при строгой оценке

ALL-4,7%

Фирма по оценке ИИ Vals AI выпустила 14 мая бенчмарк Finance Agent v2 второго поколения от Vals AI, протестировав финансовые аналитические рабочие процессы на 927 вопросах, проверенных экспертами. GPT-5.5 заняла первое место с точностью 51,76%, а вслед за ней расположились Claude Opus 4.7 (51,51%) и Claude Sonnet 4.6 (51,03%). Тест требовал, чтобы модели независимо находили релевантные разделы в сотнях страниц финансовых отчётов 10-K и 10-Q и выполняли многошаговые расчёты с точными промежуточными значениями.

При жёстких стандартах оценивания, требующих полностью правильных ответов, точность всех ведущих моделей упали ниже 40%, а самые сложные категории — финансовое моделирование и анализ прецедентов — достигали максимум лишь 23%. Среди других моделей Kimi K2.6 заняла пятое место с 44,87%, далее следуют GLM 5.1 (44,79%) и DeepSeek V4 (44,08%). По сравнению с предыдущей версией, где Opus 4.7 набрала 64,4%, заметное снижение подчёркивает, что хотя ИИ справляется с простым поиском, он всё ещё далёк от замены человеческих аналитиков в финансовой сфере — области, где требуется строгая числовая точность.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев