扩散模型终于学会“回头看自己”：I-DLM 想把大模型生成速度和质量一起拉上去

核心摘要 Summary

长期以来，扩散语言模型总在“更快生成”这件事上吊人胃口，却始终过不了“质量不如自回归模型”这一关。
I-DLM 的新意，不只是把扩散模型做快了，而是试图补上它最缺的一块能力：像人写作时那样，边往前写，边检查自己前一句有没有跑偏。

扩散语言模型，卡在了一个很像“常识”的地方

AI 圈这些年一直有个执念：既然自回归语言模型——也就是今天 ChatGPT、Qwen、Llama 这类主流大模型所采用的路线——必须一个 token 接一个 token 地往外吐字，那为什么不能换一种并行生成方式，把速度瓶颈拆掉？扩散语言模型，正是这个执念的产物。

它的诱惑力很大。理论上，扩散模型不像传统语言模型那样必须“排队说话”，而是可以一次处理多个位置，像是同时在一句话的不同空格里填词。听起来很美，尤其是在推理成本越来越贵、用户等待越来越不耐烦的今天，谁都想要一个既聪明又不磨蹭的模型。

问题在于，过去几代扩散语言模型一直有点像那种“打字很快但总改不对稿”的实习生：速度是有的，质量却常常掉链子。无论是推理、数学还是代码，扩散路线始终难以真正追上同规模的自回归模型。于是很多人开始怀疑，这条路是不是从一开始就走歪了。

I-DLM 这篇工作给出的答案很有意思：不是扩散模型天生不行，而是它缺少一种非常关键、但此前很少被明确点出来的能力——“自省一致性”（introspective consistency）。说白了，模型不只是要会生成，还得会认可并验证自己刚刚生成的东西。自回归模型天然具备这种能力，因为它每往后走一步，前面的内容已经被当成上下文“写死”了；而扩散模型以前更像是在反复去噪、反复猜测，却没有学会系统地检查“我刚才写的这几个词，到底是不是我自己也信”。

I-DLM 的关键，不是更花哨，而是更像人类写作

I-DLM，全称 Introspective Diffusion Language Models。名字看上去学术味很重，但核心思想并不复杂：让模型在一次前向计算里，同时干两件事——生成新 token，以及验证前面已经生成的 token。研究团队把这套方法叫做 Introspective Strided Decoding，简称 ISD。

你可以把它想象成这样一种写作方式：不是闷头一口气往前冲，而是每写几步，就顺手回头检查一下刚才那几步有没有跑偏，而且这件事不是额外再做一遍，而是和继续写下去同步完成。这个设计解决了扩散模型过去最尴尬的问题：它能并行，但并行出来的东西往往不够“自洽”。

从论文给出的结果看，这种“边走边验”的方式确实不是纸上谈兵。I-DLM-8B 在 AIME-24 上拿到 69.6，显著高于 LLaDA-2.1-mini 的 43.3；在 LiveCodeBench-v6 上是 45.7，对比后者的 30.4。更有意思的是，它是拿着 8B 参数去打对方 16B 参数。团队甚至宣称，I-DLM-8B 是第一个在同等规模下达到自回归模型质量水平的扩散语言模型。

如果这个结论站得住，意义其实不小。过去大家对扩散语言模型多少有点“看个热闹”的意思：概念性感人，实战里却总差一口气。I-DLM 相当于第一次把扩散路线从“未来也许有戏”拉到“现在已经能打”。

真正让行业心动的，不只是分数，而是吞吐量

今天的大模型竞争，已经越来越不像前几年那样只比榜单成绩。真正决定一家模型公司能不能赚钱、能不能撑住产品体验的，是推理成本、延迟和并发能力。你考试多 3 分，未必能换来更多用户；但如果在同等质量下把吞吐量提升 3 倍，云账单会诚实地告诉你这件事有多重要。

I-DLM 最抓人的数字其实在这里：在高并发条件下，相比 LLaDA-2.1-mini，它的吞吐量提升达到 2.9 到 4.1 倍。研究团队还特别强调，这种提升不是靠定制化、难部署的奇技淫巧，而是能直接兼容 AR 基础设施，接入 SGLang 服务框架，不需要另外造一整套新系统。

这一点非常现实。学术界喜欢“新范式”，工业界更关心“能不能接进现有流水线”。很多论文方法看起来漂亮，真正落地时却要改注意力机制、改缓存结构、改调度逻辑，工程团队听完就想关网页。I-DLM 把自己包装成“AR serving infrastructure 的即插即用替代品”，这几乎是在对产业界喊话：别怕，换我不用推倒重来。

论文里还有一个让我印象很深的点：他们甚至做了所谓“bit-for-bit lossless”加速，也就是通过 gated LoRA 的 R-ISD 版本，在输出结果逐位一致的前提下实现加速。翻成大白话就是——不是“差不多一样”，而是真的和原始 AR 模型输出完全一致。这对企业客户尤其有吸引力，因为很多生产环境最怕的不是慢，而是换了推理路径之后结果漂移、行为不可控。I-DLM 在这里展示出一种少见的工程克制：它不只追求更快，还想尽量不给部署方制造新的不确定性。

这件事为什么发生在现在，而不是两年前

如果把时间轴拉长，你会发现这项工作踩在了一个很微妙的行业节点上。过去两年，大模型训练的叙事已经慢慢从“谁的预训练语料更多、参数更大”转向“谁能把推理做得更便宜、更稳定、更适合产品化”。原因很简单，训练是一次性大投入，推理却是持续性成本黑洞。模型调用量上来之后，每一个 token 都是钱。

与此同时，自回归路线的优化也差不多卷到深水区了。PagedAttention、KV Cache、连续批处理、CUDA Graph、投机解码，这些该用的工程手段基本都用上了。行业开始意识到，只在 AR 框架上抠百分之十几的性能提升，当然仍有价值，但越来越难带来数量级变化。于是，扩散语言模型重新被捞起来研究，并不奇怪。它代表的是另一种可能：不是在单车链条上继续打磨，而是想办法换成一辆不同传动结构的车。

I-DLM 的聪明之处，在于它没有完全抛弃自回归世界的成果。它是从预训练好的 AR 模型转换而来，通过因果注意力、logit shift 和全掩码目标去做“自省一致性训练”。这种做法比从零训练一套全新扩散语言模型更务实，也更符合当下产业节奏。说得直接一点，大模型公司没有耐心为了一个新范式把已有资产全部重练一遍，谁能站在现有模型之上升级，谁就更有机会被采用。

但别急着宣布“自回归已死”

看到这样的结果，最容易出现的标题党是：“扩散语言模型终于逆袭，自回归要被淘汰了。”我不太认同。至少从现在看，这更像是一次重要的路线修正，而不是王朝更替。

原因有几个。第一，I-DLM 的成绩确实亮眼，但目前仍主要建立在特定基座模型、特定评测集合和特定服务框架上。它证明了这条路“能走通”，却还没证明自己已经在各种开放场景里都优于 AR。第二，扩散式解码引入的接受率、stride 选择、验证机制，本质上还是增加了系统复杂度。论文里解释得很清楚，接受率高时收益非常可观；但一旦遇到更难、更长尾、分布外的任务，接受率能否稳定，仍是问号。

更大的悬念在于，I-DLM 会不会迫使整个行业重新定义“好模型”的标准。过去我们太习惯把质量和速度拆开看：质量归模型组，速度归系统组。I-DLM 这种工作说明，两者可能不是后处理关系，而是同一个建模问题的两面。模型如果从训练阶段就学会“验证自己”，它在推理阶段获得的，不只是更可靠的输出，还有更便宜的并行化空间。

这背后其实藏着一个更值得琢磨的问题：未来的大模型，会不会越来越像“会自检的生成系统”，而不是单纯的下一个 token 预测器？如果答案是肯定的，那么 I-DLM 的价值就不只是一篇关于扩散模型的论文，而是一次对语言模型基本形态的提醒。

我对这项工作的态度是谨慎乐观。它没有神乎其神到一锤定音，但也绝不是普通意义上的“又一个加速技巧”。在一个大家都开始精打细算 token 成本、同时又不愿在质量上退让的时代，I-DLM 这样的方案，非常可能成为接下来两年推理架构竞赛里的重要变量。

也许以后我们回头看，会发现这类“边生成、边自证”的模型，才是真正把大模型从实验室带进大规模生产的那一步。至少现在，扩散语言模型终于不再只是 PPT 上那张很美的路线图了。

扩散模型终于学会“回头看自己”：I-DLM 想把大模型生成速度和质量一起拉上去

扩散模型新解法

行业瓶颈

速度与质量互斥

缺乏自检能力

核心机制

自省一致性训练

跨规模战力反超

工程与产业优势

高并发提效

无损加速

部署门槛极低

变量与风险

泛化力待验

系统复杂度升

混合生成范式

扩散语言模型，卡在了一个很像“常识”的地方

I-DLM 的关键，不是更花哨，而是更像人类写作

真正让行业心动的，不只是分数，而是吞吐量

这件事为什么发生在现在，而不是两年前

但别急着宣布“自回归已死”