Fünf Frontier-AI-Modelle waren in der neuesten Studie bei 67% der Faktencheck-Behauptungen uneinig

Laut dem Forscher Kosta Jordanov von Lenz Research widersprachen sich dieses Monat fünf fortschrittliche KI-Modelle bei 67% von 1.000 realen Fakten-Check-Aussagen, die getestet wurden. Die Modelle—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro mit Search und Sonar Pro—wurden gebeten, Behauptungen als wahr, größtenteils wahr, irreführend oder falsch einzuordnen. In 34% der Fälle war die Uneinigkeit stark: Ein Modell bewertete eine Behauptung als wahr, während ein anderes sie als falsch einstufte.

Die Studie maß die Übereinstimmung mit Krippendorffs Alpha, das 0,639 auf einer Skala von 1,0 für perfekte Übereinstimmung ergab; Forschende betrachten Werte unter 0,8 allgemein als schwach. Ungeteilte Übereinstimmung gab es nur bei 328 von 1.000 Aussagen, und bemerkenswert ist: Keine einzige Behauptung erhielt einstimmig ein Urteil „größtenteils wahr“. Die Forschenden nutzten Behauptungen, die von echten Nutzern an Lenz’ Fakten-Check-Plattform eingereicht wurden, statt standardmäßiger Benchmarks. Das senkte die Wahrscheinlichkeit, dass die Modelle Muster aus Trainingsdaten erkannten.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
GateUser-84f1f85dvip
· 05-29 17:37
1000x Vibes 🤑
Antworten0
GateUser-84f1f85dvip
· 05-29 17:37
HODL festhalten 💪
Original anzeigenAntworten0
GateUser-84f1f85dvip
· 05-29 17:37
Bullenlauf 🐂
Original anzeigenAntworten0
GateUser-84f1f85dvip
· 05-29 17:37
Ape In 🚀
Antworten0