90.2%学生自愿用、提分1.3个标准差：这篇AI教材论文经得起推敲吗

核心摘要 Summary

达特茅斯学院一名本科生独立开发的AI教材平台Phosphor，在151名学生中报告了90.2%自愿采用率和最高1.3个标准差的期末提分效应。
但这是一份自愿参与、作者兼开发者、未经同行评审的工作坊论文，效应量很可能主要来自学生自选择，而非平台本身的因果作用。

内容导图 Mind Map

AI教材论文

高效应量难证因果

因果缺口

自愿使用带来自选择

提分来源

或是用功者效应

亮眼数字

采用高，提分大

证据层级

仍停留作者自证

一篇来自达特茅斯学院的教育科技论文最近给出了一组扎眼的数字：90.2%的学生在完全自愿、不计分的情况下，选择用一个AI学习平台替代传统教材阅读；用满全部课时的学生，期末考试成绩比不用的学生高出0.71到1.30个标准差。这份成绩单出自一名本科生的独著论文，作者是这个平台的开发者本人。数字很漂亮，但细看方法论，这更像一份观察性部署报告，离“AI教材被证明有效”还差着一整个随机对照实验的距离。

一个人做平台、一个人写论文

这个平台叫Phosphor（前身Spongium），核心设计是把AI批改的测验直接嵌进阅读材料里：选择题自动判分，简答题交给Claude Sonnet 4.6按讲师定的评分标准打分。理论支撑是教育界熟知的“做题效应”——边读边做题，比单纯看书的学习效果好上几倍。

2026年春季学期，Phosphor在达特茅斯三个班、151名统计学导论学生中试用。它不计分、不强制，纯粹作为教材的替代选项。结果是90.2%的学生至少用过一次，远高于这门课以往10%到15%的阅读依从率。论文随之给出的期末提分效应量，是全文最吸引眼球的部分。

Bastani的护栏，和这篇论文没做的事

论文自己引用了一个更严格的对照：Bastani等人此前做过近千人的随机对照实验，发现学生无限制用GPT-4，工具撤除后成绩反而下降17%，只有加装教学护栏的版本才能避免这个反效果。这个案例常被拿来说明，AI辅助学习的关键不在于有没有AI，而在于有没有把它嵌进结构里、限制学生的偷懒空间。Phosphor的设计逻辑也顺着这条路走——把AI批改的测验做成阅读流程的一部分，而不是开放给学生随意提问的聊天框。

但Bastani的结论之所以站得住，是因为学生被随机分配到用不用AI，排除了“谁更爱学习”这个变量。Phosphor没有做这一步。学生是不是用、用多少，完全由自己选。

结构：

愿意在课外主动多用一个学习工具的学生，本来就更可能是那批更用功、目标感更强的人。0.71到1.30个标准差这个数字，很大一部分可能反映的是“谁本来就学得更好”，而不是“Phosphor让谁变聪明了”。

风险.论文对CRQ简答题评分的信度也没做验证，作者自己承认没有开展正式的评分者间信度研究，评分引擎是否可靠，全靠信任Claude Sonnet 4.6。

网上查不到的东西，本身就是一个信号

这篇论文投的是2026年6月在首尔举行的“第七届智能教材研讨会”（iTextbooks'26），是一篇工作坊论文，不是同行评审期刊论文。作者Jonah Bard既是研究者，也是Phosphor的开发者，论文里没有出现第二作者或独立评估团队。

更值得留意的是，这个平台、这篇论文、这位作者，目前在公开网络上几乎找不到任何第三方报道、复现研究或同行讨论。这不代表数据造假，但它说明这份证据还停留在“作者自证”阶段，没有经过外部检验。

效应量越漂亮，越该问一句：谁在给谁打分

教育科技这几年出过不少类似案例——工具方自己做部署、自己写论文、自己给出效应量，读者看到的往往是营销友好的那一面。对高校采购决策者和任课教师来说，真正该等的不是这篇论文里的数字，而是有没有独立机构用随机分配的方式，在更大样本、多所学校里把这套东西重新跑一遍。对学生而言，一个不计分、可选的AI辅助阅读工具确实降低了尝试门槛，但工具好用和工具真的让人学得更好，中间还差一次严格的实验。

锐评 Commentary

效应量惊人未必等于证据扎实，自选择的果实，尝起来总比因果甜。

AI教材Phosphor教育科技达特茅斯学院AI学习平台Claude Sonnet 4.6学习效果评估随机对照实验自选择偏差做题效应