一篇 2026 年 1 月 27 日提交到 arXiv 的论文,标题很直白:《Self-Distillation Enables Continual Learning》。编号 arXiv:2601.19897,作者是 Idan Shenfeld、Mehul Damani、Jonas Hübotter、Pulkit Agrawal。
它盯住的是大模型后训练里最烦的一件事:模型能不能持续学新技能、新知识,又不把旧能力冲掉。这个问题不学术。企业内部模型更新、agent 技能积累、长期任务助手,都会遇到。
今天加工具调用。明天补内部知识。后天发现老任务掉了。模型不是不会学,是太容易在学新东西时拆旧墙。
SDFT 做了什么:把示范学习往 on-policy 拉了一步
论文提出的方法叫 Self-Distillation Fine-Tuning,SDFT。
它对比的是传统 supervised fine-tuning,SFT。SFT 是示范学习的主流做法:给模型专家示范,让模型照着学。论文把 SFT 定义为 inherently off-policy:训练信号来自示范数据分布,不完全来自模型当前自己的生成行为。
SDFT 的转向在这里。
它利用 in-context learning,让一个被 demonstration conditioned 的模型充当自己的 teacher,再生成 on-policy training signals。换句话说,它仍然从示范出发,但不只是模仿示范轨迹,而是让训练信号更贴近模型自己当下会怎么行动。
| 对比项 | 传统 SFT | SDFT |
|---|---|---|
| 学习来源 | 专家示范 | 专家示范 + 模型自身生成信号 |
| 论文定义 | off-policy | 更接近 on-policy |
| 目标 | 学会新任务 | 学新任务,并减少旧能力遗忘 |
| 路线边界 | 示范监督学习 | 不是依赖显式 reward 的强化学习 |
论文声称,在技能学习、知识获取、序列学习实验中,SDFT 相比 SFT 有更高的新任务准确率,同时 substantially reducing catastrophic forgetting。注意这个措辞:是显著降低,不是彻底解决。
这还是 arXiv 论文。不是同行评审后的定论,也不能直接写成产业突破。材料里没有足够信息支撑我们讨论具体模型规模、数据集名称、提升幅度或代码状态。
但它把问题切得很准。
真正重要的不是“自蒸馏”,而是训练激励变了
我更在意的是训练激励。
持续学习的难点,不只是参数不够、数据不够、正则化不够。更深的冲突是:新任务的训练目标会强迫模型重排内部表示,而旧能力常常没有同等强度的信号在场。
新能力上去了,旧能力塌一块。
这就是灾难性遗忘最讨厌的地方。它不是一次 bug,而是一种训练后果。
SFT 的工程优点很明显:便宜、直接、稳定、容易接入。但它学的是“别人怎么做”,不是“我这个模型在当前状态下会怎么走、该怎么修”。示范有价值,可示范和模型自身行为之间有缝。
持续学习最怕这个缝。
单次微调时,它可能只是小偏差。多轮更新后,它会变成能力漂移。agent 场景更明显,因为 agent 不是一次训练完就封存,而是不断接新工具、新流程、新环境。
“其兴也勃焉,其亡也忽焉。”这句话用在模型能力曲线上并不夸张。很多后训练看起来是加能力,实质是在重新分配模型的注意力和表示资源。
SDFT 如果成立,价值不在于多了一个训练名词。它真正有意思的是:不走完整 RL 的重工程路线,也不依赖显式 reward,却试图拿到一部分 on-policy 的好处。
训练信号更贴近模型自己。更新可能更温和。旧能力被误伤的概率就有机会下降。
这对两类人最直接。
| 受影响对象 | 这篇论文意味着什么 | 更现实的动作 |
|---|---|---|
| 大模型训练与后训练团队 | 不能只看新任务分数,要把遗忘率、回归测试和多轮更新纳入训练设计 | 可以把 SDFT 当候选后训练方案做小规模复现,但不应直接替换现有 SFT 流水线 |
| 做 AI agent 技能积累的人 | agent 的长期能力不是“不断追加技能”这么简单,旧工具、旧流程、旧偏好都可能被新训练扰动 | 新技能上线前,应做连续任务序列评估,而不是只测单个新能力是否学会 |
采购或平台选型也会受影响。企业团队如果正在选“可持续更新”的内部模型方案,不该只问一次微调效果。更该问供应商有没有持续学习评估、旧能力回归测试、长周期更新记录。
这比一张漂亮 benchmark 表重要。
冷水:漂亮平衡不等于持续学习工程
这篇论文的分水岭很清楚。
如果实验外推成立,SDFT 会成为后训练工程里的一个有用部件。企业模型可以更频繁地补知识、加技能。agent 也有机会更稳地积累工具使用能力。后训练团队不用总在“新任务提升”和“旧任务回归”之间救火。
但如果它只是在有限实验里取得漂亮平衡,那就只是又一次基准集上的好看曲线。
真实持续学习更脏。
数据会变。任务会互相污染。线上分布会漂移。用户还会用你没想到的方式触发旧能力。最麻烦的是,旧能力的退化经常不是立刻爆炸,而是悄悄变钝。
目前最该观察的不是论文标题多响,而是四个现实变量:
- 更大模型上是否还能稳定减少遗忘;
- 更长任务序列里是否还撑得住;
- 新旧任务冲突更强时,是否仍优于 SFT;
- 复现成本是否低到足以进入后训练流水线。
这些变量不清楚之前,后训练团队可以读、可以复现、可以做旁路实验。不要急着迁移主线训练流程。
技术史里常见这种节点。早期铁路不是靠一段铁轨改变世界,而是靠调度、标准、维护和商业网络一起跑通。这个类比不完全一样,但提醒很有用:一项方法能在论文里跑通,不等于能在系统里长期运营。
SDFT 现在更像一段更顺的轨。还不是整套铁路。
回到开头的问题:模型能不能边学边不忘?这篇论文没有给终局答案。但它至少把刀切在了正确位置。
真正的持续学习,不是把新知识塞进去。是让模型在更新时知道什么不能乱动。
