斯坦福研究显示:法学教授在 75% 的情况下更偏好 AI 回答而非人工回应

斯坦福大学的研究人员在一项近期研究中发现,法学教授在大约 75% 的情况下更偏好来自 AI 生成的合同法答案,而不是同僚教授撰写的答案。在 2,918 次盲评对比中,来自美国 14 所法学院的 16 位教授选择了 Google 的 Gemini 2.5 Pro 回答,占比为 75.92%,比人类授课教师答案更常被选择;选择 NotebookLM 回答的占比为 74.75%,也比人类授课教师答案更常被选择。该研究测试了大型语言模型能否在法律教义、判例法、假设情景和政策议题等方面,与专业法律推理标准保持一致,随着法学院和法院越来越多地将 AI 工具整合进法律实践。

斯坦福研究在合同法问题上将 AI 与法学教授进行对比测试

该研究涉及来自美国 14 所法学院的 16 位教授,包括斯坦福、耶鲁、纽约大学、芝加哥大学、乔治城大学、UCLA 和弗吉尼亚大学。教授们创建了 40 道合同法问题,涵盖法律教义、判例法、假设情景和政策议题。研究人员设计评估,旨在测试 AI 在需要判断而非单一正确答案的领域中的能力。

研究人员写道:“大型语言模型(LLMs)正日益被作为教育导师加以推广,但大多数评估聚焦于只有一个标准答案的领域。然而,许多学科都依赖判断:推理、权衡模糊性,并得出可辩护的结论。法律提供了一个严苛的测试。”

教授们在盲评对比中评估答案对,选择他们更愿意在不知道答案来自 AI 还是人类授课教师的情况下,给学生的那一份回应。

Gemini 2.5 Pro 与 NotebookLM 在教授对比中赢得 75% 的结果

Google 的 Gemini 2.5 Pro 在与人类授课教师的对比中赢得了 75.92%,而 NotebookLM 在同类对比中赢得了 74.75%。研究人员分析结果是否反映更广泛的专业共识,通过考察当教授评估相同答案对时的一致率来进行验证。

研究人员写道:“观察到的一致性超过了若判断完全出于个人习惯时所应达到的水平,这表明 LLM 的成功反映了与常见学科标准的对齐。”

在多个类别中,AI 模型的表现优于人类授课教师,包括与判例、代码或教义相关的回忆型问题、假设情景以及政策讨论。该研究通过分析词汇-句法特征(例如答案长度、结构组织、推理细微差别、法律要点锚定、信心语气、清晰度以及教学支持)来测试:AI 优势是否源于表层写作风格,而非实质内容。

在对其他模型的独立分析中,Anthropic 的 Claude Opus 4.7 排名第一,其后是 OpenAI 的 ChatGPT 5.4 和 Gemini 2.5 Pro。每一款被评估的 AI 模型在平均表现上都优于人类授课教师。

AI 模型记录的危害性更低于人类授课教师

AI 生成的答案被标记为有害的频率,比教授撰写的答案更低。Gemini 记录了 3.41% 的有害性比例,NotebookLM 记录了 3.64%,而人类授课教师为 12.06%。

研究人员指出,该研究并未衡量答案是否符合每位教授各自的教学偏好。“尽管 LLM 的回答通常比人类授课教师的回答更受欢迎,但我们的评估设置不允许我们直接衡量教师偏好得到满足的程度,”研究声明称。“至少在理论上,LLM 虽然通常会提供更强的回答,但仍可能生成仅被认为‘足够好’的答案。”

洛杉矶法院与法学院采用 AI 工具

洛杉矶高等法院于 3 月开始测试 AI 工具,以帮助法官管理不断增长的案件量。随着法律行业将人工智能整合进来,法学院也在增加 AI 培训项目。

密西西比学院法学院院长 John P. Anderson 在接受 Decrypt 采访时表示:“这些新技术作为法律实践中的倍增力量所可能带来的潜在收益,绝对不能被忽视。无论我们的学生计划成为诉讼律师还是交易律师,他们未来的雇主将期望他们熟悉这些 AI 工具。我们希望雇用我们学生的律所能够确信,每一位 MC Law 毕业生都具备 AI 技术方面的能力。”

Sullivan & Cromwell 在破产申报中承认了虚假的 AI 引用

律师事务所仍在处理被幻觉以及其他 AI 生成错误所削弱的案件。4 月,律所 Sullivan & Cromwell 向美国破产法院承认:在一项备受关注的案件中的一份近期申报包含了由 AI 生成的虚假引文。

FAQ

斯坦福研究中,法学教授在多大比例的情况下更偏好 AI 生成的答案而非人工撰写的答案?

在斯坦福研究中,法学教授大约在 75% 的时间里更偏好 AI 生成的答案。Google 的 Gemini 2.5 Pro 在与人类授课教师的对比中赢得了 75.92%,而 NotebookLM 在 2,918 次盲评对比中赢得了 74.75%。

研究中,AI 的危害性水平与人类授课教师的回答相比如何?

AI 生成的答案记录的危害性更低于人类授课教师的回答。Gemini 的危害性为 3.41%,NotebookLM 的危害性为 3.64%,而人类授课教师为 12.06%。

洛杉矶高等法院正在测试哪些 AI 工具?

洛杉矶高等法院于 3 月开始测试 AI 工具,以帮助法官管理不断增长的案件量,尽管在来源中没有指明具体工具。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论