Пять пограничных AI-моделей разошлись во мнениях по 67% утверждений для фактчекинга в последнем исследовании

По словам исследователя Kosta Jordanov из Lenz Research, пять фронтирных AI-моделей не сошлись во мнениях по 67% из 1 000 проверяемых в реальных условиях утверждений в этом месяце. Моделям — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search и Sonar Pro — предложили классифицировать утверждения как true, mostly true, misleading или false. В 34% случаев разногласия были крайне сильными: одна модель назвала утверждение true, а другая — false.

Исследование оценивало согласие с помощью альфы Криппендорфа; ее значение составило 0,639 по шкале, где 1,0 означает идеальное согласие. Исследователи обычно считают, что значения ниже 0,8 — слабые. Единогласное согласие наблюдалось лишь по 328 из 1 000 утверждений, и особенно важно: ни одно утверждение не получило единогласный вердикт «mostly true». Для исследования использовались утверждения, поданные реальными пользователями на платформу Lenz для fact-checking, а не стандартные бенчмарки — это снижает вероятность того, что модели подгоняют ответы под шаблоны из обучающих данных.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
GateUser-84f1f85dvip
· 14м назад
1000x Вибрации 🤑
Посмотреть ОригиналОтветить0
GateUser-84f1f85dvip
· 14м назад
HODL крепко 💪
Посмотреть ОригиналОтветить0
GateUser-84f1f85dvip
· 14м назад
Бычий забег 🐂
Посмотреть ОригиналОтветить0
GateUser-84f1f85dvip
· 15м назад
Обезьяна в 🚀
Посмотреть ОригиналОтветить0