スタンフォード大学の研究者は、最近の研究で、法学教授がAIで生成された契約法の回答を、同業の教授が書いた回答よりも約75%の確率で好んだことを見つけた。2,918件のブラインド比較では、14の米国ロースクールの16人の教授が、GoogleのGemini 2.5 Proの回答を75.92%の割合で、NotebookLMの回答を74.75%の割合で、人間の担当教員の回答より選択した。これは、大規模言語モデルが、法理論、判例法、仮想事例、政策論点にわたって、専門的な法的推論の基準に整合できるかどうかを検証したものだ。ロースクールや裁判所が、法曹実務にAIツールをますます組み込んでいるためである。
スタンフォード研究は契約法の問題でAIを法学教授と比較してテストする
この研究には、スタンフォード、イェール、ニューヨーク大学、シカゴ大学、ジョージタウン、UCLA、バージニア大学を含む、14の米国ロースクールの16人の教授が参加した。教授たちは、法理論、判例法、仮想事例、政策論点をカバーする契約法の設問40問を作成した。研究者は、単一の正解ではなく判断を要する領域でのAIの能力を試すように評価を設計した。
「大規模言語モデル(LLM)は教育用の家庭教師としてますます推進されているが、ほとんどの評価は、単一の確固たる正解がある領域に偏っている」と研究者は書いた。「しかし多くの分野は判断に依存している。すなわち、推論、曖昧さの重みづけ、そして擁護可能な結論に到達することだ。法律は鋭い試金石を提供する。」
教授たちは、回答ペアをブラインド比較で評価し、それがAIの回答か人間の担当教員の回答かを知らないまま、学生に出すならどちらの回答を選ぶかを決めた。
Gemini 2.5 Pro と NotebookLM が教授同士の比較で75%を獲得
GoogleのGemini 2.5 Proは、人間の担当教員との対戦で75.92%を勝ち取り、NotebookLMは74.75%の割合で勝った。研究者は、教授が同じ回答ペアを評価した際の一致率を調べることで、結果がより広範な専門的コンセンサスを反映しているかどうかを分析した。
「観察された一致は、判断が完全に独自なものである場合に期待される水準を上回っており、これはLLMの成功が、一般的な学問分野の基準への整合を反映していることを示している」と研究者は書いた。
AIモデルは、判例、コード、または法理論に関する想起の設問、仮想事例、政策に関する議論を含む複数のカテゴリで、人間の担当教員を上回った。この研究は、AIの優位性が内容そのものではなく表面的な文章の書きぶりによるものかどうかを、回答の長さ、構造の組み立て、推論のニュアンス、法的な根拠の提示、確信のトーン、明瞭さ、教育的な支援といった語彙・統語の特徴を分析することで検証した。
追加モデルに関する別の分析では、AnthropicのClaude Opus 4.7が1位となり、その次がOpenAIのChatGPT 5.4、そしてGemini 2.5 Proだった。評価されたすべてのAIモデルは平均で人間の担当教員を上回った。
AIモデルは人間の担当教員より低い有害性率を記録
AIが作成した回答は、人間の教授が書いた回答よりも有害だとフラグ付けされる頻度が低かった。Geminiは有害性率3.41%、NotebookLMは3.64%で、人間の担当教員は12.06%だった。
研究者は、この研究が、回答が各教授の個別の教授方針の好みに一致するかどうかを測定していない点に触れた。「LLMの回答は一般的に人間の担当教員のものより好まれるが、私たちの評価設定では、指導者の好みがどの程度満たされているかを直接測定できない」と研究は述べている。「少なくとも理論上は、LLMが概してより強い回答を提供しているとしても、『十分に良い』と見なされるだけの回答を生成している可能性はある。」
ロサンゼルスの裁判所とロースクールがAIツールを採用
ロサンゼルス上級裁判所は、増え続ける事件数への対応を裁判官が管理するのを助けるために、3月からAIツールの試験運用を始めた。法曹分野で人工知能が統合されていくのに合わせて、ロースクールではAIの研修プログラムを追加している。
「法律実務におけるパワーマルチプライヤーとしての、これら新技術の潜在的な利益は、見過ごせないだけです」とMississippi College School of Lawの学部長John P. AndersonはDecryptに語った。「学生が訴訟担当者になるにせよ取引(トランザクション)弁護士になるにせよ、将来の雇用主はこれらのAIツールに精通していることを期待します。私たちは、MC Lawの卒業生がAI技術において能力があると、私たちの学生を採用する事務所に確信してもらいたいのです。」
Sullivan & Cromwell、破産申請で偽のAI引用を認める
法律事務所は、幻覚(ハルシネーション)やその他のAIが生成した誤りによって根拠が損なわれる事案に、引き続き直面している。4月、法律事務所Sullivan & Cromwellは、注目度の高い案件における最近の提出書類に、AIによって生成された偽の引用が含まれていたとして、米国の破産裁判所に認めた。
FAQ
スタンフォードの研究では、法学教授は人間が書いた回答よりもAIが生成した回答をどれくらいの割合で好んだのですか?
スタンフォードの研究では、法学教授はAIが生成した回答を約75%の割合で好んだ。GoogleのGemini 2.5 Proは、人間の担当教員との対戦で75.92%を勝ち取り、一方NotebookLMは2,918件のブラインド比較を通じて74.75%の割合で勝った。
研究において、AIの有害性率は人間の担当教員の回答と比べてどうでしたか?
AIが作成した回答は、人間の担当教員の回答よりも低い有害性率を記録した。Geminiは有害性率3.41%、NotebookLMは3.64%で、人間の担当教員は12.06%だった。
ロサンゼルス上級裁判所はどんなAIツールをテストしていますか?
ロサンゼルス上級裁判所は、事件数が増える中で裁判官が事件を管理するのを助けるために3月からAIツールのテストを開始したが、出典には具体的なツール名は特定されていない。