Дослідник Коста Джорданов з Lenz Research повідомив, що цього місяця п’ять «фронтирних» моделей ШІ не зійшлися в оцінках щодо 67% із 1 000 реальних фактчек-заяв, перевірених на практиці. Моделям — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro з Search та Sonar Pro — запропонували класифікувати твердження як істинні, здебільшого істинні, оманливі або хибні. У 34% випадків розбіжності були різкими: одна модель називала твердження істинним, тоді як інша — хибним.
Дослідження вимірювало узгодженість за допомогою альфи Криппендорфа: вона становила 0,639 за шкалою, де 1,0 означає ідеальну узгодженість; загалом у наукових колах значення нижче 0,8 вважають слабкими. Одностайна згода траплялася лише щодо 328 із 1 000 тверджень, а ще показово: жодне твердження не отримало одностайного вердикту «здебільшого істинне». Дослідники використали твердження, подані реальними користувачами на платформу фактчекінгу Lenz, а не стандартні бенчмарки, що зменшує ймовірність того, що моделі «підганятимуть» відповіді під патерни з даних тренування.