GPT-5 досяг 62,7% точності на інцидентах у продакшені, але не дотягує до 72,7% експертного базового рівня

Згідно з останнім бенчмарком Datadog і Carnegie Mellon, GPT-5 досяг 62,7% точності в тесті ARFBench, не дотягнувши до показника людських експертів у доменних задачах — 72,7%. ARFBench — це перший AI-бенчмарк, побудований на основі 63 реальних інцидентів у продакшені: він містить 750 запитань із варіантами відповідей, що охоплюють 142 метрики моніторингу та 5,38 мільйона точок даних — без синтетичних даних.

AI-моделі найбільше зіштовхуються з кросметричним міркуванням (запитання Tier III), де GPT-5 показав лише 47,5% F1. Теоретична модель-експертна «оракульна» система, що поєднує AI та людське судження, досягає 87,2% точності, демонструючи, як співпраця може перевищити результати кожної сторони окремо. Гібридна модель Datadog, Toto-1.0-QA-Experimental, очолила лідерборд із 63,9% точності, випередивши GPT-5 у задачах ідентифікації аномалій.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів