扩散模型终于学会“回头看自己”:I-DLM 想把大模型生成速度和质量一起拉上去

扩散语言模型,卡在了一个很像“常识”的地方
AI 圈这些年一直有个执念:既然自回归语言模型——也就是今天 ChatGPT、Qwen、Llama 这类主流大模型所采用的路线——必须一个 token 接一个 token 地往外吐字,那为什么不能换一种并行生成方式,把速度瓶颈拆掉?扩散语言模型,正是这个执念的产物。
它的诱惑力很大。理论上,扩散模型不像传统语言模型那样必须“排队说话”,而是可以一次处理多个位置,像是同时在一句话的不同空格里填词。听起来很美,尤其是在推理成本越来越贵、用户等待越来越不耐烦的今天,谁都想要一个既聪明又不磨蹭的模型。
问题在于,过去几代扩散语言模型一直有点像那种“打字很快但总改不对稿”的实习生:速度是有的,质量却常常掉链子。无论是推理、数学还是代码,扩散路线始终难以真正追上同规模的自回归模型。于是很多人开始怀疑,这条路是不是从一开始就走歪了。
I-DLM 这篇工作给出的答案很有意思:不是扩散模型天生不行,而是它缺少一种非常关键、但此前很少被明确点出来的能力——“自省一致性”(introspective consistency)。说白了,模型不只是要会生成,还得会认可并验证自己刚刚生成的东西。自回归模型天然具备这种能力,因为它每往后走一步,前面的内容已经被当成上下文“写死”了;而扩散模型以前更像是在反复去噪、反复猜测,却没有学会系统地检查“我刚才写的这几个词,到底是不是我自己也信”。
I-DLM 的关键,不是更花哨,而是更像人类写作
I-DLM,全称 Introspective Diffusion Language Models。名字看上去学术味很重,但核心思想并不复杂:让模型在一次前向计算里,同时干两件事——生成新 token,以及验证前面已经生成的 token。研究团队把这套方法叫做 Introspective Strided Decoding,简称 ISD。
你可以把它想象成这样一种写作方式:不是闷头一口气往前冲,而是每写几步,就顺手回头检查一下刚才那几步有没有跑偏,而且这件事不是额外再做一遍,而是和继续写下去同步完成。这个设计解决了扩散模型过去最尴尬的问题:它能并行,但并行出来的东西往往不够“自洽”。
从论文给出的结果看,这种“边走边验”的方式确实不是纸上谈兵。I-DLM-8B 在 AIME-24 上拿到 69.6,显著高于 LLaDA-2.1-mini 的 43.3;在 LiveCodeBench-v6 上是 45.7,对比后者的 30.4。更有意思的是,它是拿着 8B 参数去打对方 16B 参数。团队甚至宣称,I-DLM-8B 是第一个在同等规模下达到自回归模型质量水平的扩散语言模型。
如果这个结论站得住,意义其实不小。过去大家对扩散语言模型多少有点“看个热闹”的意思:概念性感人,实战里却总差一口气。I-DLM 相当于第一次把扩散路线从“未来也许有戏”拉到“现在已经能打”。
真正让行业心动的,不只是分数,而是吞吐量
今天的大模型竞争,已经越来越不像前几年那样只比榜单成绩。真正决定一家模型公司能不能赚钱、能不能撑住产品体验的,是推理成本、延迟和并发能力。你考试多 3 分,未必能换来更多用户;但如果在同等质量下把吞吐量提升 3 倍,云账单会诚实地告诉你这件事有多重要。
I-DLM 最抓人的数字其实在这里:在高并发条件下,相比 LLaDA-2.1-mini,它的吞吐量提升达到 2.9 到 4.1 倍。研究团队还特别强调,这种提升不是靠定制化、难部署的奇技淫巧,而是能直接兼容 AR 基础设施,接入 SGLang 服务框架,不需要另外造一整套新系统。
这一点非常现实。学术界喜欢“新范式”,工业界更关心“能不能接进现有流水线”。很多论文方法看起来漂亮,真正落地时却要改注意力机制、改缓存结构、改调度逻辑,工程团队听完就想关网页。I-DLM 把自己包装成“AR serving infrastructure 的即插即用替代品”,这几乎是在对产业界喊话:别怕,换我不用推倒重来。
论文里还有一个让我印象很深的点:他们甚至做了所谓“bit-for-bit lossless”加速,也就是通过 gated LoRA 的 R-ISD 版本,在输出结果逐位一致的前提下实现加速。翻成大白话就是——不是“差不多一样”,而是真的和原始 AR 模型输出完全一致。这对企业客户尤其有吸引力,因为很多生产环境最怕的不是慢,而是换了推理路径之后结果漂移、行为不可控。I-DLM 在这里展示出一种少见的工程克制:它不只追求更快,还想尽量不给部署方制造新的不确定性。
这件事为什么发生在现在,而不是两年前
如果把时间轴拉长,你会发现这项工作踩在了一个很微妙的行业节点上。过去两年,大模型训练的叙事已经慢慢从“谁的预训练语料更多、参数更大”转向“谁能把推理做得更便宜、更稳定、更适合产品化”。原因很简单,训练是一次性大投入,推理却是持续性成本黑洞。模型调用量上来之后,每一个 token 都是钱。
与此同时,自回归路线的优化也差不多卷到深水区了。PagedAttention、KV Cache、连续批处理、CUDA Graph、投机解码,这些该用的工程手段基本都用上了。行业开始意识到,只在 AR 框架上抠百分之十几的性能提升,当然仍有价值,但越来越难带来数量级变化。于是,扩散语言模型重新被捞起来研究,并不奇怪。它代表的是另一种可能:不是在单车链条上继续打磨,而是想办法换成一辆不同传动结构的车。
I-DLM 的聪明之处,在于它没有完全抛弃自回归世界的成果。它是从预训练好的 AR 模型转换而来,通过因果注意力、logit shift 和全掩码目标去做“自省一致性训练”。这种做法比从零训练一套全新扩散语言模型更务实,也更符合当下产业节奏。说得直接一点,大模型公司没有耐心为了一个新范式把已有资产全部重练一遍,谁能站在现有模型之上升级,谁就更有机会被采用。
但别急着宣布“自回归已死”
看到这样的结果,最容易出现的标题党是:“扩散语言模型终于逆袭,自回归要被淘汰了。”我不太认同。至少从现在看,这更像是一次重要的路线修正,而不是王朝更替。
原因有几个。第一,I-DLM 的成绩确实亮眼,但目前仍主要建立在特定基座模型、特定评测集合和特定服务框架上。它证明了这条路“能走通”,却还没证明自己已经在各种开放场景里都优于 AR。第二,扩散式解码引入的接受率、stride 选择、验证机制,本质上还是增加了系统复杂度。论文里解释得很清楚,接受率高时收益非常可观;但一旦遇到更难、更长尾、分布外的任务,接受率能否稳定,仍是问号。
更大的悬念在于,I-DLM 会不会迫使整个行业重新定义“好模型”的标准。过去我们太习惯把质量和速度拆开看:质量归模型组,速度归系统组。I-DLM 这种工作说明,两者可能不是后处理关系,而是同一个建模问题的两面。模型如果从训练阶段就学会“验证自己”,它在推理阶段获得的,不只是更可靠的输出,还有更便宜的并行化空间。
这背后其实藏着一个更值得琢磨的问题:未来的大模型,会不会越来越像“会自检的生成系统”,而不是单纯的下一个 token 预测器?如果答案是肯定的,那么 I-DLM 的价值就不只是一篇关于扩散模型的论文,而是一次对语言模型基本形态的提醒。
我对这项工作的态度是谨慎乐观。它没有神乎其神到一锤定音,但也绝不是普通意义上的“又一个加速技巧”。在一个大家都开始精打细算 token 成本、同时又不愿在质量上退让的时代,I-DLM 这样的方案,非常可能成为接下来两年推理架构竞赛里的重要变量。
也许以后我们回头看,会发现这类“边生成、边自证”的模型,才是真正把大模型从实验室带进大规模生产的那一步。至少现在,扩散语言模型终于不再只是 PPT 上那张很美的路线图了。