最新の調査で5つのフロンティアAIモデルが、事実確認の主張の67%で見解が一致しなかった

Lenz Researchの研究者Kosta Jordanovによると、今月テストされた1,000件の実世界のファクトチェック主張のうち、5つのフロンティアAIモデルは67%で意見が一致しませんでした。モデルは――GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search、Sonar Pro――で、主張を「真実」「概ね真実」「誤解を招く」「虚偽」に分類するよう求められました。34%のケースでは不一致が深刻で、あるモデルがその主張を真実と呼ぶ一方で、別のモデルは虚偽と判定しました。

この研究では、Krippendorffのアルファを用いて一致度を測定し、完全一致を示す1.0の尺度で0.639でした。研究者は一般に0.8未満のスコアを弱いと見なします。1,000件の主張のうち、全員一致が起きたのは328件のみで、しかも注目すべきことに「概ね真実」とする全員一致の判定はゼロでした。研究者らは、標準的なベンチマークではなく、Lenzのファクトチェック・プラットフォームに実ユーザーが提出した主張を使用しており、モデルが学習データに基づくパターン照合を行う可能性を低減していました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
GateUser-84f1f85dvip
· 14分前
1000倍の雰囲気 🤑
原文表示返信0
GateUser-84f1f85dvip
· 14分前
HODLしっかり 💪
原文表示返信0
GateUser-84f1f85dvip
· 14分前
ブル・ラン 🐂
原文表示返信0
GateUser-84f1f85dvip
· 14分前
アペ・イン 🚀
原文表示返信0