レンズ・リサーチのコスタ・ヨルダノフ研究者によって今月発表された調査では、最先端のAIモデル5つが、現実世界のファクトチェック主張1,000件のうち67%で意見が食い違い、全員一致が起きたのは328件だけだった。研究では、実際のユーザーがファクトチェック・プラットフォームに投稿した主張に対し、GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、検索付きのGemini 3 Pro、Sonar Proをテストした。モデルはKrippendorffのαスコア0.639を達成し、研究者が一般に信頼できるとみなす0.8の閾値を下回った。すべてのモデルが同一の4ラベル方式(true(正しい)、mostly true(概ね正しい)、misleading(誤解を招く)、false(誤り))で同じ主張を評価したにもかかわらず、意見の相違が生じた。結果は、人々がますますAIシステムをファクトチェックに使うようになる中で、信頼性への懸念を浮き彫りにしている。
調査手法:実ユーザーが投稿した主張を使用
この研究では、5つのAIモデルに、実際のユーザーがレンズのファクトチェック・プラットフォームへ投稿したのと同じ現実世界の主張1,000件を与えた。モデルは4つのラベルのうち1つを選ばなければならなかった(true、mostly true、misleading、false)。この研究は、標準的なテストセットから取り出すのではなく、レンズのファクトチェック・プラットフォームに実在の人々が投稿した主張を用いた。「これらの主張の多くは、付随するゴールドラベルが付いた状態では、どの学習コーパスにも登場しそうにありません。照合できる正解キー(決定版の答え合わせ表)がないのでパターンマッチできず、基準となるベンチマークのリーダーボードもありません」と論文は述べている。
5つのAIモデルは1,000件中672件で意見が食い違った
1,000件中672件では、少なくとも1つのモデルが多数派から外れた。34%のケースでは相違は深刻で、あるモデルはある主張をtrueと呼び、別のモデルはfalseと呼んだ。「これは公開された正解キーを持つベンチマーク項目ではありません。これらはファクトチェック・プラットフォームで検証するために実ユーザーが提出した主張です」と研究は読める形で書いている。「1つの主張につき、判定を入れる箱は1つだけ正解になり得るので、この4つの区分ルールにおけるパネル内の意見相違は、少なくとも1つのモデルの判定がラベル整合性に欠けることを意味します。」
統計的な信頼性スコアが標準の閾値を下回る
一致の度合いを測る統計指標であるKrippendorffのαは、1.0が完全一致、0がランダムな偶然を意味する尺度で0.639となった。研究は、これは「些細ではないが限定的な一致」を示しているとしている。「モデルの判定はランダムというより構造化されていますが、パネルを単一の交換可能な判断者として扱えるほどには一貫していません」と研究者は指摘している。研究者は一般に0.8未満を弱いと考えている。
例示された主張で、モデルは深刻な乖離を示した
研究者らは、AIモデルが最もばらついた例の主張を提示した。そこには「2025年時点で、ナイジェリアにおける世界銀行のアクティブ・ポートフォリオが$16.4 billion超である」というものが含まれていた。ChatGPT 5.4は「mostly true」としたのに対し、Gemini 3 Proは「false」とし、姉妹モデルのGemini 3 Pro + Searchは「misleading」と評価した。
別の例では、次の主張がモデルに提示された。「ドナルド・トランプは、湾岸の同盟国の要請を受けて、イランへの攻撃が延期されたと言った」。GPT-5.4はfalse、Claude Opus 4.7はmostly true、Gemini 3 Proはfalse、Gemini 3 Pro + Searchはtrueと評価した。
全員一致は、事実の両極端でのみ起きた
5つのモデルが一致した場合、つまりそれが1,000件中328件にしか起きなかったときでも、何かがmisleading(誤解を招く)またはmostly true(概ね正しい)だと判断する点では、ほとんど一致しなかった。4つの主張だけが、全員一致で「misleading」という判定を受けた。「mostly true」で全員一致はゼロだった。「パネルは決定的な判定へ収束します。ルーブリックの中間が、そこで分裂するのです」と研究者らは見出した。全員一致が起きたのは両極端のみで、主張が間違いなくtrueか、間違いなくfalseのどちらかだった。
論文はこの点を慎重に指摘している。「最先端モデルの多数派は事実の真実(ground truth)ではありません。多数派の判定が誤っていることもあります。個別に異議を唱えるモデルが正しいこともあります。私たちは、不一致を測るための構造的な基準として多数派を用い、正確さの代替としては用いません。」
よくある質問
ファクトチェックに関するAIモデルの一致について、レンズ・リサーチの調査は何を明らかにしましたか?
この調査では、最先端のAIモデル5つが、実ユーザーによって投稿された現実世界のファクトチェック主張1,000件のうち67%で食い違ったことが分かった。全員一致が起きたのは328件のみで、モデルはKrippendorffのαスコア0.639を達成し、研究者が一般に許容できると考える0.8の信頼性閾値を下回った。
ナイジェリアの世界銀行ポートフォリオに関する例の主張では、AIモデルはどうでしたか?
ChatGPT 5.4は「The World Bank's active portfolio in Nigeria stands an over $16.4 billion as of 2025」という主張を「mostly true」と評価したのに対し、Gemini 3 Proはfalseとし、Gemini 3 Pro + Searchはmisleadingと評価した。同じ事実主張に対してモデル間で深刻な乖離が示されたことになる。
なぜ、この調査では標準的なテストセットではなく、実ユーザーが投稿した主張を使ったのですか?
研究者らは、レンズのファクトチェック・プラットフォームに実在の人々が投稿した主張を用いた。これらの主張の多くは、付随するゴールドラベルが付いた状態では、どの学習コーパスにも登場しそうにないためで、ベンチマークの正解キーに対してモデルがパターンマッチする可能性を排除でき、ファクトチェックの信頼性をより現実的に検証することができるからだ。