斯坦福大学的研究人员在一项近期研究中发现，法学教授在大约 75% 的情况下更偏好来自 AI 生成的合同法答案，而不是同僚教授撰写的答案。在 2,918 次盲评对比中，来自美国 14 所法学院的 16 位教授选择了 Google 的 Gemini 2.5 Pro 回答，占比为 75.92%，比人类授课教师答案更常被选择；选择 NotebookLM 回答的占比为 74.75%，也比人类授课教师答案更常被选择。该研究测试了大型语言模型能否在法律教义、判例法、假设情景和政策议题等方面，与专业法律推理标准保持一致，随着法学院和法院越来越多地将 AI 工具整合进法律实践。

斯坦福研究在合同法问题上将 AI 与法学教授进行对比测试

该研究涉及来自美国 14 所法学院的 16 位教授，包括斯坦福、耶鲁、纽约大学、芝加哥大学、乔治城大学、UCLA 和弗吉尼亚大学。教授们创建了 40 道合同法问题，涵盖法律教义、判例法、假设情景和政策议题。研究人员设计评估，旨在测试 AI 在需要判断而非单一正确答案的领域中的能力。

研究人员写道：“大型语言模型（LLMs）正日益被作为教育导师加以推广，但大多数评估聚焦于只有一个标准答案的领域。然而，许多学科都依赖判断：推理、权衡模糊性，并得出可辩护的结论。法律提供了一个严苛的测试。”

教授们在盲评对比中评估答案对，选择他们更愿意在不知道答案来自 AI 还是人类授课教师的情况下，给学生的那一份回应。

Gemini 2.5 Pro 与 NotebookLM 在教授对比中赢得 75% 的结果

Google 的 Gemini 2.5 Pro 在与人类授课教师的对比中赢得了 75.92%，而 NotebookLM 在同类对比中赢得了 74.75%。研究人员分析结果是否反映更广泛的专业共识，通过考察当教授评估相同答案对时的一致率来进行验证。

研究人员写道：“观察到的一致性超过了若判断完全出于个人习惯时所应达到的水平，这表明 LLM 的成功反映了与常见学科标准的对齐。”

在多个类别中，AI 模型的表现优于人类授课教师，包括与判例、代码或教义相关的回忆型问题、假设情景以及政策讨论。该研究通过分析词汇-句法特征（例如答案长度、结构组织、推理细微差别、法律要点锚定、信心语气、清晰度以及教学支持）来测试：AI 优势是否源于表层写作风格，而非实质内容。

在对其他模型的独立分析中，Anthropic 的 Claude Opus 4.7 排名第一，其后是 OpenAI 的 ChatGPT 5.4 和 Gemini 2.5 Pro。每一款被评估的 AI 模型在平均表现上都优于人类授课教师。

AI 模型记录的危害性更低于人类授课教师

AI 生成的答案被标记为有害的频率，比教授撰写的答案更低。Gemini 记录了 3.41% 的有害性比例，NotebookLM 记录了 3.64%，而人类授课教师为 12.06%。

研究人员指出，该研究并未衡量答案是否符合每位教授各自的教学偏好。“尽管 LLM 的回答通常比人类授课教师的回答更受欢迎，但我们的评估设置不允许我们直接衡量教师偏好得到满足的程度，”研究声明称。“至少在理论上，LLM 虽然通常会提供更强的回答，但仍可能生成仅被认为‘足够好’的答案。”

洛杉矶法院与法学院采用 AI 工具

洛杉矶高等法院于 3 月开始测试 AI 工具，以帮助法官管理不断增长的案件量。随着法律行业将人工智能整合进来，法学院也在增加 AI 培训项目。

密西西比学院法学院院长 John P. Anderson 在接受 Decrypt 采访时表示：“这些新技术作为法律实践中的倍增力量所可能带来的潜在收益，绝对不能被忽视。无论我们的学生计划成为诉讼律师还是交易律师，他们未来的雇主将期望他们熟悉这些 AI 工具。我们希望雇用我们学生的律所能够确信，每一位 MC Law 毕业生都具备 AI 技术方面的能力。”

Sullivan & Cromwell 在破产申报中承认了虚假的 AI 引用

律师事务所仍在处理被幻觉以及其他 AI 生成错误所削弱的案件。4 月，律所 Sullivan & Cromwell 向美国破产法院承认：在一项备受关注的案件中的一份近期申报包含了由 AI 生成的虚假引文。

FAQ

斯坦福研究中，法学教授在多大比例的情况下更偏好 AI 生成的答案而非人工撰写的答案？

在斯坦福研究中，法学教授大约在 75% 的时间里更偏好 AI 生成的答案。Google 的 Gemini 2.5 Pro 在与人类授课教师的对比中赢得了 75.92%，而 NotebookLM 在 2,918 次盲评对比中赢得了 74.75%。

研究中，AI 的危害性水平与人类授课教师的回答相比如何？

AI 生成的答案记录的危害性更低于人类授课教师的回答。Gemini 的危害性为 3.41%，NotebookLM 的危害性为 3.64%，而人类授课教师为 12.06%。

洛杉矶高等法院正在测试哪些 AI 工具？

洛杉矶高等法院于 3 月开始测试 AI 工具，以帮助法官管理不断增长的案件量，尽管在来源中没有指明具体工具。

View Source

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。