EAGLE 3.1 最值得看的,不是“最高 2×”这个数字。

更关键的是:它为什么要补这一刀。

speculative decoding 的逻辑很漂亮。小的 draft model 先猜 token,大模型负责验收。猜对越多,吞吐越高。

但真实服务没那么干净。长上下文一拉长,chat template 一换,system prompt 一复杂,速度就可能掉。问题不在思路,而在鲁棒性。

这次 EAGLE 团队、vLLM 团队和 TorchSpec 团队发布 EAGLE 3.1。vLLM 已经把支持合入 main,预计会随 nightly 和 v0.22.0 提供。

对做 LLM serving 的团队来说,这比又一张漂亮曲线更实际。

EAGLE 3.1 改了什么,快了多少

核心变化不多,但都打在稳定性上。

项目EAGLE 3.1 的变化直接影响
结构改动一在 target hidden state 后加入 FC normalization缓解输入表示失衡
结构改动二下一步解码喂 post-norm hidden states降低深层 speculation 的漂移
vLLM 支持已合入 vLLM main更容易进入推理服务链路
兼容性保留 EAGLE 3 checkpoint 向后兼容旧路径不用大拆
示例模型开源 Kimi K2.6 EAGLE 3.1 draft model给模型适配提供样例

官方给出的关键指标是:长上下文场景下,EAGLE 3.1 的 acceptance length 相比 EAGLE 3 最高可达 2×。

Kimi K2.6 示例更具体。基于 Kimi-K2.6-NVFP4、GB200、vLLM、SPEED-Bench coding,EAGLE 3.1 draft model 相比 no-spec baseline 的 per-user output throughput 是:

并发per-user output throughput 提升
C=12.03×
C=41.71×
C=161.66×

这组数对低并发交互、代码生成、长输出服务很有吸引力。尤其是那些按 token 吞吐算账的团队。

但它不能直接翻译成“成本砍半”。

acceptance length 变长,意思是更容易一次验收更多 token。账单最后怎么变,还受并发、调度、显存、网络、模型结构影响。

推理系统不是一根管子。你把一段加粗,别的地方也可能堵住。

这次补的是 attention drift

EAGLE 3.1 指向的问题叫 attention drift。

说得直一点:draft model 猜得越深,越容易看偏。

随着 speculation depth 增加,drafter 的注意力会逐渐从 sink tokens 转向自己生成的 token。它开始活在自己的回声里。

这会带来两个后果。

一是高层 hidden states 在输入里越来越强,融合表示失衡。二是残差路径没有归一化,hidden-state magnitude 随步骤增长。

训练时看着还行。部署时模板一换、上下文一长,acceptance 掉下来,吞吐也跟着掉。

EAGLE 3.1 的 FC normalization 和 post-norm hidden-state feedback,本质上是在给递归解码加护栏。

它不是让目标大模型更聪明。它是在让 drafter 不要越猜越飘。

我更在意这一点。推理优化进了生产阶段,很多胜负不再来自“算法更巧”。而是来自它能不能扛住脏输入、长上下文、多模板、多负载。

“天下大事,必作于细。”这句话放在推理服务上很合适。大模型看起来宏大,省钱经常发生在归一化、兼容层和调度路径里。

对推理团队意味着什么

受影响最大的,不是普通用户。

是两类人。

一类是大模型推理部署和平台工程团队。他们可以把 EAGLE 3.1 当成一个新的评估项,尤其是长上下文、代码生成、低并发交互、长输出场景。

动作上,不是立刻全量迁移。更合理的是先在 vLLM nightly 或后续 v0.22.0 路径上做灰度验证,看自己的模型、模板、负载下 acceptance length 和 per-user throughput 是否真的改善。

另一类是关注 LLM serving 成本和延迟的技术决策者。他们该把问题问细一点:这次收益发生在什么并发、什么硬件、什么模型、什么任务上?

如果你的瓶颈在网络、排队、KV cache 压力或高并发调度,speculative decoding 的收益会被摊薄。benchmark 里的 2.03×,不能直接搬进预算表。

更现实的决策表大概是这样:

场景是否优先评估 EAGLE 3.1原因
长上下文问答attention drift 更容易暴露,3.1 正在补这个洞
代码生成、长输出输出 token 多,acceptance length 改善更容易转成吞吐
低并发交互较高per-user output throughput 更敏感
高并发混合负载谨慎调度、显存和排队可能吃掉部分收益
只关心模型能力提升不相关这是推理路径优化,不是目标模型能力升级

接下来最该看的,不是发布稿里还有没有更大的倍数。

该看三件事:vLLM 集成后的配置复杂度,EAGLE 3 checkpoint 向后兼容是否足够顺滑,不同模型和模板下收益是否稳定。

这也是这次三方协作的真正含义。

别写过头。它不是商业合并,也不是组织绑定。材料只能说明开源协作、训练支持和代码集成。

但它至少表明一件事:speculative decoding 正在离开单点算法竞赛,进入联合工程。

EAGLE 负责算法。TorchSpec 降低训练和实验成本。vLLM 把它接到 serving 框架里,还要处理配置、兼容、隐藏状态假设这些麻烦事。

这有点像早期铁路。不完全一样,但有一处相似:更快的机车当然重要,可真正改变运输效率的,是轨距、调度、维修和站点一起标准化。

推理加速也是这样。单点技巧能跑一段。链路配齐,才跑得久。

我不太买账的是把每次 speculative decoding 更新都包装成革命。多数时候,它们只是把某个脆弱点往后推了一格。

但 EAGLE 3.1 这一格有价值。

它补的是生产环境最讨厌的问题:平时不显眼,一上线就拖慢。模型越大,服务越复杂,这种细处越贵。