EAGLE 3.1 最值得看的,不是“最高 2×”这个数字。
更关键的是:它为什么要补这一刀。
speculative decoding 的逻辑很漂亮。小的 draft model 先猜 token,大模型负责验收。猜对越多,吞吐越高。
但真实服务没那么干净。长上下文一拉长,chat template 一换,system prompt 一复杂,速度就可能掉。问题不在思路,而在鲁棒性。
这次 EAGLE 团队、vLLM 团队和 TorchSpec 团队发布 EAGLE 3.1。vLLM 已经把支持合入 main,预计会随 nightly 和 v0.22.0 提供。
对做 LLM serving 的团队来说,这比又一张漂亮曲线更实际。
EAGLE 3.1 改了什么,快了多少
核心变化不多,但都打在稳定性上。
| 项目 | EAGLE 3.1 的变化 | 直接影响 |
|---|---|---|
| 结构改动一 | 在 target hidden state 后加入 FC normalization | 缓解输入表示失衡 |
| 结构改动二 | 下一步解码喂 post-norm hidden states | 降低深层 speculation 的漂移 |
| vLLM 支持 | 已合入 vLLM main | 更容易进入推理服务链路 |
| 兼容性 | 保留 EAGLE 3 checkpoint 向后兼容 | 旧路径不用大拆 |
| 示例模型 | 开源 Kimi K2.6 EAGLE 3.1 draft model | 给模型适配提供样例 |
官方给出的关键指标是:长上下文场景下,EAGLE 3.1 的 acceptance length 相比 EAGLE 3 最高可达 2×。
Kimi K2.6 示例更具体。基于 Kimi-K2.6-NVFP4、GB200、vLLM、SPEED-Bench coding,EAGLE 3.1 draft model 相比 no-spec baseline 的 per-user output throughput 是:
| 并发 | per-user output throughput 提升 |
|---|---|
| C=1 | 2.03× |
| C=4 | 1.71× |
| C=16 | 1.66× |
这组数对低并发交互、代码生成、长输出服务很有吸引力。尤其是那些按 token 吞吐算账的团队。
但它不能直接翻译成“成本砍半”。
acceptance length 变长,意思是更容易一次验收更多 token。账单最后怎么变,还受并发、调度、显存、网络、模型结构影响。
推理系统不是一根管子。你把一段加粗,别的地方也可能堵住。
这次补的是 attention drift
EAGLE 3.1 指向的问题叫 attention drift。
说得直一点:draft model 猜得越深,越容易看偏。
随着 speculation depth 增加,drafter 的注意力会逐渐从 sink tokens 转向自己生成的 token。它开始活在自己的回声里。
这会带来两个后果。
一是高层 hidden states 在输入里越来越强,融合表示失衡。二是残差路径没有归一化,hidden-state magnitude 随步骤增长。
训练时看着还行。部署时模板一换、上下文一长,acceptance 掉下来,吞吐也跟着掉。
EAGLE 3.1 的 FC normalization 和 post-norm hidden-state feedback,本质上是在给递归解码加护栏。
它不是让目标大模型更聪明。它是在让 drafter 不要越猜越飘。
我更在意这一点。推理优化进了生产阶段,很多胜负不再来自“算法更巧”。而是来自它能不能扛住脏输入、长上下文、多模板、多负载。
“天下大事,必作于细。”这句话放在推理服务上很合适。大模型看起来宏大,省钱经常发生在归一化、兼容层和调度路径里。
对推理团队意味着什么
受影响最大的,不是普通用户。
是两类人。
一类是大模型推理部署和平台工程团队。他们可以把 EAGLE 3.1 当成一个新的评估项,尤其是长上下文、代码生成、低并发交互、长输出场景。
动作上,不是立刻全量迁移。更合理的是先在 vLLM nightly 或后续 v0.22.0 路径上做灰度验证,看自己的模型、模板、负载下 acceptance length 和 per-user throughput 是否真的改善。
另一类是关注 LLM serving 成本和延迟的技术决策者。他们该把问题问细一点:这次收益发生在什么并发、什么硬件、什么模型、什么任务上?
如果你的瓶颈在网络、排队、KV cache 压力或高并发调度,speculative decoding 的收益会被摊薄。benchmark 里的 2.03×,不能直接搬进预算表。
更现实的决策表大概是这样:
| 场景 | 是否优先评估 EAGLE 3.1 | 原因 |
|---|---|---|
| 长上下文问答 | 高 | attention drift 更容易暴露,3.1 正在补这个洞 |
| 代码生成、长输出 | 高 | 输出 token 多,acceptance length 改善更容易转成吞吐 |
| 低并发交互 | 较高 | per-user output throughput 更敏感 |
| 高并发混合负载 | 谨慎 | 调度、显存和排队可能吃掉部分收益 |
| 只关心模型能力提升 | 不相关 | 这是推理路径优化,不是目标模型能力升级 |
接下来最该看的,不是发布稿里还有没有更大的倍数。
该看三件事:vLLM 集成后的配置复杂度,EAGLE 3 checkpoint 向后兼容是否足够顺滑,不同模型和模板下收益是否稳定。
这也是这次三方协作的真正含义。
别写过头。它不是商业合并,也不是组织绑定。材料只能说明开源协作、训练支持和代码集成。
但它至少表明一件事:speculative decoding 正在离开单点算法竞赛,进入联合工程。
EAGLE 负责算法。TorchSpec 降低训练和实验成本。vLLM 把它接到 serving 框架里,还要处理配置、兼容、隐藏状态假设这些麻烦事。
这有点像早期铁路。不完全一样,但有一处相似:更快的机车当然重要,可真正改变运输效率的,是轨距、调度、维修和站点一起标准化。
推理加速也是这样。单点技巧能跑一段。链路配齐,才跑得久。
我不太买账的是把每次 speculative decoding 更新都包装成革命。多数时候,它们只是把某个脆弱点往后推了一格。
但 EAGLE 3.1 这一格有价值。
它补的是生产环境最讨厌的问题:平时不显眼,一上线就拖慢。模型越大,服务越复杂,这种细处越贵。
