斯坦福 CS336 又补了一条规矩：大模型课不能只会调 API，也不能让 AI 替你写训练链路

核心摘要 Summary

斯坦福 CS336 公开语言模型课程的重点，原本已经很清楚：大模型学习门槛正在从“会调 API”转向“能搭训练链路”。
作业仓库里的 AI Agent 使用准则又把边界说得更硬：AI 可以当助教，不能当代写工；学生必须亲手写 tokenizer、Transformer block、optimizer 和 training loop。

斯坦福 CS336 这门课，之前最值得看的是课程资源本身：公开语言模型从零实现，不是让学生围着 API prompt 转，而是把 tokenizer、Transformer、优化器、训练循环、性能分析这些东西拆开重做一遍。

现在作业仓库里又多了一份 CLAUDE.md。文件名看着像给 Claude Code、Cursor、Copilot、ChatGPT 这类工具看的提示词，内容却很克制：AI 是 Teaching Assistant，不是 Solution Generator。

这句话把 CS336 的真实门槛补齐了。

公开课程资源告诉你学什么；这份准则告诉你，哪些过程不能外包给 AI。前者是知识路线，后者是学习秩序。

发生了什么：斯坦福给 AI 助手划了一条硬线

CS336 是一门实现密集型大模型课程。学生要写大量 Python/PyTorch 代码，脚手架有限，目标不是“看懂答案”，而是把模型训练链路亲手搭起来。

这份 AI Agent Guidelines 没有全面禁止 AI。它允许 AI 做这些事：

解释课程概念；
帮学生理解 Python、PyTorch、CUDA、Triton 报错；
审阅学生已经写出的代码；
建议测试、断言、toy example、profiling 方法；
引导学生查课程材料和官方文档。

但它明确禁止 AI 做另一类事：

直接给作业解法；
写 Python 代码或伪代码；
补 TODO；
编辑学生仓库；
运行 bash 命令；
实现 tokenizer、training loop、Triton kernel、分布式训练逻辑等核心组件；
指向第三方完整实现让学生照抄。

最关键的不是“能不能用 AI”，而是 AI 替代了哪一段学习。

学生问 causal mask 不对，AI 可以让他检查 softmax 前后、broadcast shape、masked value、toy input。AI 不能说：你第 42 行错了，我替你改好。

前者训练判断力。后者训练复制粘贴。

为什么重要：大模型课的门槛正在换地方

过去很多人学 AI，路线很短：会调接口，会写 prompt，会拼工作流，就算入门。

这条路线当然有用。做产品原型、做业务自动化、做轻量工具，API 能解决很多问题。但 CS336 这种课指向的是另一层能力：你要知道模型为什么能训起来，也要知道它为什么训不起来。

这正是课程资源的价值。它把大模型学习从“调用智能”拉回“建造系统”。

大模型训练链路里，真正折磨人的不是概念名词，而是那些笨问题：

维度对不上；
loss 不降；
mask 广播错了；
optimizer 行为和预期不同；
GPU 利用率低；
distributed training 卡在通信；
Triton kernel 性能不如想象。

这些问题看着低级，却最长肌肉。

AI 如果把这段全拿走，学生会得到一份能跑的作业，也会失去理解系统的机会。结果很讽刺：模型看着更强，产品反而更虚；工具越来越聪明，人却越来越不会判断工具错在哪里。

这份准则补强的正是这一点：CS336 的主线不是“免费放课件”，而是把学习目标压到训练链路本身。会用 AI，不等于会做 AI。

谁受影响：最先被逼着改的不是学生，是课程设计

受影响最大的有两类人。

一类是想系统学大模型的学生和工程师。CS336 给出的信号很直白：如果你只想快速调模型、套框架、跑 demo，这门课的收益会打折；如果你愿意被 tokenizer、Transformer block、optimizer、training loop 折磨一遍，它的价值才会出来。

另一类是教编程、教机器学习的人。

很多课程面对 AI 有两种懒办法：假装 AI 不存在，继续布置容易被生成器秒掉的作业；或者写一句“禁止使用 AI”，把问题推给学术诚信。

两种都不够。

CS336 的做法更现实：承认 AI 已经在学习现场，然后把它限制在助教位置。它甚至规定了提问方式：先问学生试过什么、预期是什么、实际发生了什么，再建议 invariants、shape assertion、toy input、profiler 检查。

这不是道德宣言，是可执行边界。

“请合理使用 AI”这种话太软，落地时全靠自觉。自觉在评分压力面前不值钱。天下熙熙，皆为利来；课堂里也一样，学生会优化自己被评价的指标。

如果评分只看最终代码能不能跑，AI 就会变成外包。如果课程要求调试记录、测试设计、profiling 分析、口头解释，AI 才更可能回到辅导工具的位置。

问题不在产品，而在激励设计。

我更在意的是：AI 进入课堂后，学习过程不能被偷换

我不太买账“名校开始围堵 AI”这种说法。CS336 这份文件更像一次课程设计上的止损。

它没有把 AI 当敌人。它把 AI 当一种已经失控扩散的基础工具，然后问一个很具体的问题：哪些环节可以省力，哪些环节不能省？

这和计算器进课堂有点像，但不完全一样。

学校后来没有禁止计算器，而是区分什么时候考算术，什么时候考建模。AI 的麻烦更大，因为它不只替你算，还会替你组织思路、写代码、解释错误、生成下一步。它省掉的不是一小段劳动，而可能是整条认知路径。

古人说“纸上得来终觉浅”。放到今天，就是屏上生成也终觉浅。

尤其是大模型工程。你没有亲手踩过 shape、mask、loss、通信、显存这些坑，以后面对 AI 生成的训练代码，很难判断它是对的、凑巧能跑的，还是埋了一个三天后才炸的雷。

这也是为什么 CS336 的方向比很多“AI 速成课”更值得看。它没有把大模型教育包装成玄学，也没有把学习简化成调用工具。它说得很朴素：你得自己写。你得自己调。你得知道哪里错了。

这话不性感，但对。

接下来该看什么：准则能不能进入评分系统

目前能看到的，还只是一份作业仓库里的 agent guidelines。它不是斯坦福全校政策，也没有公开效果数据。不能把它神化。

真正要观察的是三件事：

作业评分是否会看过程证据，而不只看最终代码；
助教是否会按同一把尺子处理 AI 使用边界；
课程是否会增加口头解释、调试记录、profiling 报告这类反代写设计。

如果这些跟不上，准则就容易变成墙上的规矩。学生照样可以把题目喂给模型，只是换一种更隐蔽的问法。

但方向已经很清楚。

AI 时代的 CS 教育，不能再只问“有没有用 AI”。这个问题太粗。更好的问题是：AI 是帮你看清问题，还是替你绕过问题？

CS336 的答案偏硬：解释可以，代写不行；提示可以，接管不行；工具可以进课堂，但不能把课堂掏空。

这也让那门公开课的意义更完整了。大模型门槛确实正在从调 API 转向搭训练链路；现在还要再补一句，搭训练链路这件事，不能让 AI 全替你搭。

斯坦福 CS336 又补了一条规矩：大模型课不能只会调 API，也不能让 AI 替你写训练链路

CS336新规

硬边界

可做事项

门槛转移

核心训练

课程设计

学生工程师

过程保护

工具定位

发生了什么：斯坦福给 AI 助手划了一条硬线

为什么重要：大模型课的门槛正在换地方

谁受影响：最先被逼着改的不是学生，是课程设计

我更在意的是：AI 进入课堂后，学习过程不能被偷换

接下来该看什么：准则能不能进入评分系统