За даними Beating, компанія з оцінювання AI Vals AI опублікувала бенчмарк Finance Agent v2 другого покоління 14 травня, протестувавши фінансові аналітичні робочі процеси на 927 запитаннях, відпрацьованих експертами. GPT-5.5 очолила рейтинг із 51,76% точності, тоді як Claude Opus 4.7 (51,51%) і Claude Sonnet 4.6 (51,03%) відставали зовсім незначно. Тест вимагав, щоб моделі самостійно знаходили релевантні розділи на сотнях сторінок фінансових звітів 10-K і 10-Q та виконували багатокрокові обчислення з точними проміжними значеннями.

За суворих стандартів оцінювання, що вимагають повністю правильних відповідей, точність усіх провідних моделей впали нижче 40%, а найскладніші категорії — фінансове моделювання та аналіз прецедентів — досягали максимуму лише 23%. Серед інших моделей Kimi K2.6 посіла п’яте місце з 44,87%, далі йшли GLM 5.1 (44,79%) і DeepSeek V4 (44,08%). У порівнянні з попередньою версією, де Opus 4.7 набрала 64,4%, помітне падіння підкреслює: хоча AI справляється із простим пошуком, він усе ще дуже далекий від заміни людських аналітиків у фінансовій сфері, що вимагає суворої чисельної точності.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-14 06:25

Google запустить Gemini 3.2 Flash на I/O 20 травня, досягнувши продуктивності, як у GPT-5.5, але за 1/15 вартості

05-14 04:53

GPT-5.6 Успішно Доступний через Codex OAuth, Обсяг Контексту Розширюється до 1,5 млн Токенів; Очікується Запуск у Червні

05-14 03:05

Можливості ШІ зламу подвоюються кожні 4,7 місяця; попередній перегляд Claude Mythos і GPT-5.5 перевищують тестові ліміти

05-14 01:49

Mistral AI обговорює з європейськими банками розгортання продукту, який конкурує з Mythos

05-12 12:58

Artificial Analysis публікує бенчмарк агента для кодування; Zhipu GLM-5.1 посідає перше місце серед моделей із відкритим кодом

Поглиблений аналіз