Дослідник Коста Джорданов з Lenz Research повідомив, що цього місяця п’ять «фронтирних» моделей ШІ не зійшлися в оцінках щодо 67% із 1 000 реальних фактчек-заяв, перевірених на практиці. Моделям — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro з Search та Sonar Pro — запропонували класифікувати твердження як істинні, здебільшого істинні, оманливі або хибні. У 34% випадків розбіжності були різкими: одна модель називала твердження істинним, тоді як інша — хибним.

Дослідження вимірювало узгодженість за допомогою альфи Криппендорфа: вона становила 0,639 за шкалою, де 1,0 означає ідеальну узгодженість; загалом у наукових колах значення нижче 0,8 вважають слабкими. Одностайна згода траплялася лише щодо 328 із 1 000 тверджень, а ще показово: жодне твердження не отримало одностайного вердикту «здебільшого істинне». Дослідники використали твердження, подані реальними користувачами на платформу фактчекінгу Lenz, а не стандартні бенчмарки, що зменшує ймовірність того, що моделі «підганятимуть» відповіді під патерни з даних тренування.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-29 10:15

OpenAI розширює доступ до GPT-Rosalind для уряду США та союзників 29 травня

05-29 09:18

Google Gemini запускає шість заходів оптимізації, зокрема безкоштовну Flash-Lite та подвоєні ліміти відео

05-29 06:33

Частка ринку ChatGPT падає до 60%, тоді як Gemini зростає до 50% за останні шість місяців

05-29 06:25

Звіт Microsoft: AI-інструменти для ухвалення рішень забезпечують 28% активності на робочому місці станом на 29 травня

05-29 04:17

Apple перебудовує Siri моделлю Gemini із трильйонами параметрів і конфіденційними обчисленнями Nvidia

Поглиблений аналіз