SDFT 值得看：它不是微调花活，而是在碰持续学习的硬骨头

核心摘要 Summary

arXiv:2601.19897 论文《Self-Distillation Enables Continual Learning》提出 Self-Distillation Fine-Tuning，用 demonstration-conditioned model 给自己生成更接近 on-policy 的训练信号。
它的重点不是“自蒸馏”这个名字，而是试图缓解大模型持续学习里的老冲突：学新任务，同时少忘旧能力。
现在还不能把它当成产业突破，但做后训练、agent 技能积累和企业模型更新的人，应该认真读。

一篇 2026 年 1 月 27 日提交到 arXiv 的论文，标题很直白：《Self-Distillation Enables Continual Learning》。编号 arXiv:2601.19897，作者是 Idan Shenfeld、Mehul Damani、Jonas Hübotter、Pulkit Agrawal。

它盯住的是大模型后训练里最烦的一件事：模型能不能持续学新技能、新知识，又不把旧能力冲掉。这个问题不学术。企业内部模型更新、agent 技能积累、长期任务助手，都会遇到。

今天加工具调用。明天补内部知识。后天发现老任务掉了。模型不是不会学，是太容易在学新东西时拆旧墙。

SDFT 做了什么：把示范学习往 on-policy 拉了一步

论文提出的方法叫 Self-Distillation Fine-Tuning，SDFT。

它对比的是传统 supervised fine-tuning，SFT。SFT 是示范学习的主流做法：给模型专家示范，让模型照着学。论文把 SFT 定义为 inherently off-policy：训练信号来自示范数据分布，不完全来自模型当前自己的生成行为。

SDFT 的转向在这里。

它利用 in-context learning，让一个被 demonstration conditioned 的模型充当自己的 teacher，再生成 on-policy training signals。换句话说，它仍然从示范出发，但不只是模仿示范轨迹，而是让训练信号更贴近模型自己当下会怎么行动。

对比项	传统 SFT	SDFT
学习来源	专家示范	专家示范 + 模型自身生成信号
论文定义	off-policy	更接近 on-policy
目标	学会新任务	学新任务，并减少旧能力遗忘
路线边界	示范监督学习	不是依赖显式 reward 的强化学习

论文声称，在技能学习、知识获取、序列学习实验中，SDFT 相比 SFT 有更高的新任务准确率，同时 substantially reducing catastrophic forgetting。注意这个措辞：是显著降低，不是彻底解决。

这还是 arXiv 论文。不是同行评审后的定论，也不能直接写成产业突破。材料里没有足够信息支撑我们讨论具体模型规模、数据集名称、提升幅度或代码状态。

但它把问题切得很准。

真正重要的不是“自蒸馏”，而是训练激励变了

我更在意的是训练激励。

持续学习的难点，不只是参数不够、数据不够、正则化不够。更深的冲突是：新任务的训练目标会强迫模型重排内部表示，而旧能力常常没有同等强度的信号在场。

新能力上去了，旧能力塌一块。

这就是灾难性遗忘最讨厌的地方。它不是一次 bug，而是一种训练后果。

SFT 的工程优点很明显：便宜、直接、稳定、容易接入。但它学的是“别人怎么做”，不是“我这个模型在当前状态下会怎么走、该怎么修”。示范有价值，可示范和模型自身行为之间有缝。

持续学习最怕这个缝。

单次微调时，它可能只是小偏差。多轮更新后，它会变成能力漂移。agent 场景更明显，因为 agent 不是一次训练完就封存，而是不断接新工具、新流程、新环境。

“其兴也勃焉，其亡也忽焉。”这句话用在模型能力曲线上并不夸张。很多后训练看起来是加能力，实质是在重新分配模型的注意力和表示资源。

SDFT 如果成立，价值不在于多了一个训练名词。它真正有意思的是：不走完整 RL 的重工程路线，也不依赖显式 reward，却试图拿到一部分 on-policy 的好处。

训练信号更贴近模型自己。更新可能更温和。旧能力被误伤的概率就有机会下降。

这对两类人最直接。

受影响对象	这篇论文意味着什么	更现实的动作
大模型训练与后训练团队	不能只看新任务分数，要把遗忘率、回归测试和多轮更新纳入训练设计	可以把 SDFT 当候选后训练方案做小规模复现，但不应直接替换现有 SFT 流水线
做 AI agent 技能积累的人	agent 的长期能力不是“不断追加技能”这么简单，旧工具、旧流程、旧偏好都可能被新训练扰动	新技能上线前，应做连续任务序列评估，而不是只测单个新能力是否学会

采购或平台选型也会受影响。企业团队如果正在选“可持续更新”的内部模型方案，不该只问一次微调效果。更该问供应商有没有持续学习评估、旧能力回归测试、长周期更新记录。

这比一张漂亮 benchmark 表重要。

冷水：漂亮平衡不等于持续学习工程

这篇论文的分水岭很清楚。

如果实验外推成立，SDFT 会成为后训练工程里的一个有用部件。企业模型可以更频繁地补知识、加技能。agent 也有机会更稳地积累工具使用能力。后训练团队不用总在“新任务提升”和“旧任务回归”之间救火。

但如果它只是在有限实验里取得漂亮平衡，那就只是又一次基准集上的好看曲线。

真实持续学习更脏。

数据会变。任务会互相污染。线上分布会漂移。用户还会用你没想到的方式触发旧能力。最麻烦的是，旧能力的退化经常不是立刻爆炸，而是悄悄变钝。

目前最该观察的不是论文标题多响，而是四个现实变量：

更大模型上是否还能稳定减少遗忘；
更长任务序列里是否还撑得住；
新旧任务冲突更强时，是否仍优于 SFT；
复现成本是否低到足以进入后训练流水线。

这些变量不清楚之前，后训练团队可以读、可以复现、可以做旁路实验。不要急着迁移主线训练流程。

技术史里常见这种节点。早期铁路不是靠一段铁轨改变世界，而是靠调度、标准、维护和商业网络一起跑通。这个类比不完全一样，但提醒很有用：一项方法能在论文里跑通，不等于能在系统里长期运营。

SDFT 现在更像一段更顺的轨。还不是整套铁路。

回到开头的问题：模型能不能边学边不忘？这篇论文没有给终局答案。但它至少把刀切在了正确位置。

真正的持续学习，不是把新知识塞进去。是让模型在更新时知道什么不能乱动。

SDFT 值得看：它不是微调花活，而是在碰持续学习的硬骨头

SDFT

核心问题

场景刚需

方法转向

自生成信号

非完整 RL

真正看点

激励变化

旧能力保护

工程含义

后训练

Agent

现实边界

关键变量

采用节奏

SDFT 做了什么：把示范学习往 on-policy 拉了一步

真正重要的不是“自蒸馏”，而是训练激励变了

冷水：漂亮平衡不等于持续学习工程