Vals AI випускає бенчмарк Finance Agent v2; GPT-5.5 набирає 51,76%, усі моделі не перевищують 40% за суворого оцінювання

ALL-4,7%

За даними Beating, компанія з оцінювання AI Vals AI опублікувала бенчмарк Finance Agent v2 другого покоління 14 травня, протестувавши фінансові аналітичні робочі процеси на 927 запитаннях, відпрацьованих експертами. GPT-5.5 очолила рейтинг із 51,76% точності, тоді як Claude Opus 4.7 (51,51%) і Claude Sonnet 4.6 (51,03%) відставали зовсім незначно. Тест вимагав, щоб моделі самостійно знаходили релевантні розділи на сотнях сторінок фінансових звітів 10-K і 10-Q та виконували багатокрокові обчислення з точними проміжними значеннями.

За суворих стандартів оцінювання, що вимагають повністю правильних відповідей, точність усіх провідних моделей впали нижче 40%, а найскладніші категорії — фінансове моделювання та аналіз прецедентів — досягали максимуму лише 23%. Серед інших моделей Kimi K2.6 посіла п’яте місце з 44,87%, далі йшли GLM 5.1 (44,79%) і DeepSeek V4 (44,08%). У порівнянні з попередньою версією, де Opus 4.7 набрала 64,4%, помітне падіння підкреслює: хоча AI справляється із простим пошуком, він усе ще дуже далекий від заміни людських аналітиків у фінансовій сфері, що вимагає суворої чисельної точності.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів