一篇来自达特茅斯学院的教育科技论文最近给出了一组扎眼的数字:90.2%的学生在完全自愿、不计分的情况下,选择用一个AI学习平台替代传统教材阅读;用满全部课时的学生,期末考试成绩比不用的学生高出0.71到1.30个标准差。这份成绩单出自一名本科生的独著论文,作者是这个平台的开发者本人。数字很漂亮,但细看方法论,这更像一份观察性部署报告,离“AI教材被证明有效”还差着一整个随机对照实验的距离。
一个人做平台、一个人写论文
这个平台叫Phosphor(前身Spongium),核心设计是把AI批改的测验直接嵌进阅读材料里:选择题自动判分,简答题交给Claude Sonnet 4.6按讲师定的评分标准打分。理论支撑是教育界熟知的“做题效应”——边读边做题,比单纯看书的学习效果好上几倍。
2026年春季学期,Phosphor在达特茅斯三个班、151名统计学导论学生中试用。它不计分、不强制,纯粹作为教材的替代选项。结果是90.2%的学生至少用过一次,远高于这门课以往10%到15%的阅读依从率。论文随之给出的期末提分效应量,是全文最吸引眼球的部分。
Bastani的护栏,和这篇论文没做的事
论文自己引用了一个更严格的对照:Bastani等人此前做过近千人的随机对照实验,发现学生无限制用GPT-4,工具撤除后成绩反而下降17%,只有加装教学护栏的版本才能避免这个反效果。这个案例常被拿来说明,AI辅助学习的关键不在于有没有AI,而在于有没有把它嵌进结构里、限制学生的偷懒空间。Phosphor的设计逻辑也顺着这条路走——把AI批改的测验做成阅读流程的一部分,而不是开放给学生随意提问的聊天框。
但Bastani的结论之所以站得住,是因为学生被随机分配到用不用AI,排除了“谁更爱学习”这个变量。Phosphor没有做这一步。学生是不是用、用多少,完全由自己选。
结构:
愿意在课外主动多用一个学习工具的学生,本来就更可能是那批更用功、目标感更强的人。0.71到1.30个标准差这个数字,很大一部分可能反映的是“谁本来就学得更好”,而不是“Phosphor让谁变聪明了”。
- 风险.论文对CRQ简答题评分的信度也没做验证,作者自己承认没有开展正式的评分者间信度研究,评分引擎是否可靠,全靠信任Claude Sonnet 4.6。
网上查不到的东西,本身就是一个信号
这篇论文投的是2026年6月在首尔举行的“第七届智能教材研讨会”(iTextbooks'26),是一篇工作坊论文,不是同行评审期刊论文。作者Jonah Bard既是研究者,也是Phosphor的开发者,论文里没有出现第二作者或独立评估团队。
更值得留意的是,这个平台、这篇论文、这位作者,目前在公开网络上几乎找不到任何第三方报道、复现研究或同行讨论。这不代表数据造假,但它说明这份证据还停留在“作者自证”阶段,没有经过外部检验。
效应量越漂亮,越该问一句:谁在给谁打分
教育科技这几年出过不少类似案例——工具方自己做部署、自己写论文、自己给出效应量,读者看到的往往是营销友好的那一面。对高校采购决策者和任课教师来说,真正该等的不是这篇论文里的数字,而是有没有独立机构用随机分配的方式,在更大样本、多所学校里把这套东西重新跑一遍。对学生而言,一个不计分、可选的AI辅助阅读工具确实降低了尝试门槛,但工具好用和工具真的让人学得更好,中间还差一次严格的实验。
