16名美国法学教授,40个合同法学生问题,近3000次匿名配对评估。

结果有点刺眼:在不知道答案作者是谁的情况下,教授们有75%的时候更偏好AI写的合同法答疑,而不是同行教授写的答案。

别把它读成“AI全面超过法学教授”。这项研究看的是合同法课后答疑、office hours那类场景。不是法庭辩护,不是论文指导,也不是整套法学教育。

但也别轻描淡写。法律不是选择题,合同法答疑常常要解释规则、例外、模糊性和竞争性论证。AI能在这里赢,说明它击中的不是知识点记忆,而是解释质量、稳定性和可获得性。

这项研究到底测了什么

研究由斯坦福法学院教授Julian Nyarko领导,合作者来自耶鲁、NYU、芝加哥大学等机构。论文题目是《Law Professors Prefer AI Over Peer Answers》。

核心设置很简单:把AI答案和人类法学教授答案匿名放在一起,让法学教授做配对评估。

项目研究设置结果或含义
评估者16名美国法学教授样本不大,但评估者是专业同行
问题40个合同法学生问题对应课后答疑、office hours场景
对比方式近3000次匿名配对评估者不知道答案来自AI还是教授
偏好结果AI vs 人类同行答案AI赢下75%
风险标记可能误导或有害AI为3.5%,人类为12%

最后一行最容易被误读。

3.5%不是“AI没有幻觉”。它只说明,在这个受控实验里,AI答案被教授标为可能误导或有害的比例更低。人类答案被标为12%,也不等于教授更危险,只能说明人类答疑同样会有遗漏、含混和误导。

研究作者的表述也很克制:他们不主张全面采用AI导师。重点应从“AI能不能给出高质量答案”,转到“怎么负责任地部署”。

还有几个限制不能跳过。

这项研究只评估答案质量,不评估长期学习效果。16名教授也不是整个法学教育体系。场景限定在合同法答疑,不代表所有课程、所有法学院、所有法律服务都适用。

公开线索里也没有足够方法细节让读者判断所有变量,比如具体AI模型、教授答案生成条件、评分标准的细分维度。结论可以重视,但不能拿来做一锤定音的行业宣判。

为什么这事让法学院不舒服

法律教育一直有一种体面:真正的训练来自人,来自老师对案例的拆解,来自课外答疑里那些细碎的追问。

这套体面没有倒。松了一块。

AI赢的不是教授的全部工作。它赢的是一种高频、重复、解释型、又很消耗教师时间的工作:学生问一个概念怎么理解,一个规则怎么适用,一个案例为什么两边都能讲。

人类老师当然能答好。问题是,人不总在线,不总稳定,也不总愿意把同一个问题讲第十遍。

AI没有办公室时间。也没有情绪成本。

这才是教育技术最锋利的地方。它不一定先替代最好的老师,而是先替代学生实际能拿到的那部分老师。很多学生缺的不是大师,是一个随叫随到、解释清楚、不会嫌问题太基础的中等偏上导师。

“天下熙熙,皆为利来。”放在教育里不刺耳。高校要控制成本,教师有科研压力,学生付了学费却未必拿得到及时反馈。AI一旦把低边际成本答疑做到足够好,稀缺性就很难继续替低效率挡枪。

这对几类人已经有动作含义。

对象该怎么做现实约束
高校教师把AI用于预答疑、生成解释草稿、整理学生常见误区不能把审题、纠偏和责任一起外包
学生可用AI做第一轮理解和追问练习不能把AI答案当权威结论,尤其在法律推理里
法律科技与教育平台产品重点应转向可审计、可引用、可纠错的教学助手只做聊天框,很快会陷入信任问题
学校管理者采购前先定边界:哪些问题能答,哪些必须转人工没有治理规则,部署越快,责任越乱

高校教师最该警惕的不是“学生用了AI”,而是学生已经发现:很多基础答疑本来就不该排队等人。

平台从业者也别只盯着胜率。法律教育看重的是可辩护的推理链。产品如果不能解释来源、不能标出不确定性、不能让教师介入修正,75%的偏好率不会自动变成采购理由。

教授不会立刻失业,低质量服务会先失去保护

我不买那种简单结论:AI赢了法学教授,所以教授危险了。

真正危险的是那些长期靠稀缺性撑住的低质量服务。

敷衍式答疑会更难混过去。只给方向、不解释理由,会更难混过去。学生等几天才得到一个本可清楚回答的问题,也会更难混过去。

过去这些问题常被解释成“教育资源有限”。以后学生会问得更直接:既然机器能及时解释,学校交付得又贵又慢,凭什么?

但代价也还没结算。

法律训练最难的部分,不是听懂一个解释,而是在不确定里形成自己的判断。AI如果只让学生更快拿到答案,未必让学生更会思考。一个工具太顺手,也可能让人绕开艰难的推理过程。

所以分水岭不在模型能力,而在部署设计。

学校把AI导师直接丢给学生,就是把教学责任外包给概率系统。平台只追求使用时长,就会鼓励学生索取结论。教授把AI当替身,课堂会变薄;把AI当助教,课堂可能变厚。

接下来真正该看的不是又一轮“AI是否懂法律”的口水仗,而是三件事:学校是否建立人工复核和转接机制,平台是否提供可审计的答案链路,课程是否把AI使用纳入训练而不是默许学生私下乱用。

这项研究的价值,恰恰在于把问题推回现实:AI没有终结法学教授,但它已经让教育里的低质量答疑不再安全。

开头那组数字最刺眼的地方,不是75%。是它让人看见,学生需要的很多帮助,本来就该更及时、更清楚、更稳定。