Google 给 Gemma 4 加上 MTP drafter：最高 3 倍加速，但别当成模型变聪明

核心摘要 Summary

Google 2026 年 5 月 5 日在官方博客宣布，为 Gemma 4 引入 Multi-Token Prediction（MTP）drafter，官方称推理最高可达 3x 加速。
这个更新主要解决生成等待，不等于 Gemma 4 的理解、推理或知识能力提升。
最该行动的是本地和服务端推理开发者：先用自己的业务提示词测延迟和质量，再决定是否接入。

Google 这次给 Gemma 4 的数字很醒目：推理最高 3x 加速。

但这个“3x”最容易被误读。它说的是推理阶段的速度上限，不是模型能力突然跃迁，也不是所有场景稳定快 3 倍。

2026 年 5 月 5 日，Google 在官方博客宣布，为 Gemma 4 引入 Multi-Token Prediction（MTP）drafter。受影响最大的不是普通聊天用户，而是把 Gemma 4 跑在本地或服务端的开发者。

他们关心的不是一句宣传语，而是三件事：token/s 能不能上去，长回答延迟能不能降下来，同样机器能不能多扛一些请求。

Gemma 4 改的是生成路径，不是模型脑子

这次更新的核心是 MTP drafter。按官方表述，它用于提升 Gemma 4 的推理速度，最高可达 3x。

这里要分清两件事。

推理加速，是让模型生成答案更快。模型能力提升，是让模型更会理解、更会推理、知识覆盖更强。Google 这次披露的重点在前者，不是后者。

MTP drafter 更像推理阶段的工程优化。主模型仍负责最终输出质量，drafter 先预测多个后续 token，再由主模型验证或接收。草稿准，就能少走一些逐 token 生成的慢路。

这对 Gemma 4 的意义不小。开放模型竞争早就不只看榜单分数了。能不能在本地设备、私有服务器、现有推理框架里跑得顺，也会影响开发者是否愿意用。

问题	这次更新能回答什么	不能直接推出什么
速度	官方称推理最高 3x 加速	所有任务稳定 3 倍
能力	生成等待可能减少	理解、推理、知识能力变强
对象	本地或服务端推理开发者受益更直接	普通用户一定立刻感知
性质	MTP drafter 是推理优化	不是新的基础模型

所以，这不是“Gemma 4 变聪明了”。更准确的说法是：Google 给 Gemma 4 补了一条更快吐字的推理路径。

MTP drafter 为什么能快，也为什么不能神化

传统自回归生成有一个天然慢点：模型通常按 token 一步一步往外生成。每走一步，都要基于已有上下文再算下一步。

MTP drafter 的思路，是先给出一小段候选。主模型再集中检查这些候选。如果候选被接受，生成就能一次推进多个 token。

这个思路和业界常见的 speculative decoding 接近，都是用“草稿—验证”换速度。

但速度不是白来的。drafter 猜得准，收益就高；猜得不准，验证和回退也会消耗计算。最后能快多少，要看任务、实现和运行环境。

更可能吃到收益的，是可预测性较强的任务。比如代码补全、格式化文本、模板化回复、摘要生成里的固定结构段落。

收益更不稳定的，是开放式创作、复杂推理、多轮对话中频繁改方向的场景。模型下一步要说什么越不确定，草稿命中率就越难保证。

这也是“最高 3x”必须谨慎看的原因。它是上限数字，不是容量规划表里的固定系数。

目前公开线索里，没有可直接引用的具体 benchmark 条件、硬件配置、模型尺寸、成本变化或各任务分项数据。开发团队不应该把“3x”直接写进 SLA，也不该据此马上改预算。

开发者该怎么动：先测自己的延迟账本

最相关的两类人，是 AI 应用开发者和推理基础设施负责人。

如果团队已经在用 Gemma 4 做本地推理或服务端推理，可以把 MTP drafter 放进测试队列。不要先迁移生产环境，先拿自己的真实提示词跑一轮。

更具体一点，动作可以很简单：

角色	建议动作	观察指标
AI 应用开发者	用现有业务 prompt 做 A/B 测试	首 token 延迟、输出 token/s、长回答耗时
推理基础设施负责人	检查现有框架、量化和批处理策略是否兼容	吞吐、显存占用、并发下稳定性
技术决策者	暂缓把 3x 写进采购或扩容假设	实测收益、接入成本、质量回归

我更在意的是质量回归。

推理加速如果只让输出更快，当然好。但如果接入后带来输出差异、拒答变化、边界案例增多，开发者还是要重新评估。尤其是客服、文档问答、代码助手这类产品，速度提升不能换来稳定性下降。

对还没用 Gemma 4 的团队，也不必因为一个 3x 数字马上迁移。更现实的做法是观望工具链支持情况。看它是否进入主流推理框架，看部署文档是否清楚，看不同任务下有没有更完整的实测数据。

这件事真正该盯的，不是博客标题里的最高倍数，而是三组变量：

不同任务下，草稿命中率和实际 token/s 提升；
本地、服务端、批处理场景里的兼容成本；
加速后，输出质量和边界行为是否稳定。

如果这些变量跑通，MTP drafter 就会从一个技术亮点变成开发者愿意默认开启的能力。若跑不通，它也可能只是特定场景里的好用优化。

回到开头那个 3x。它有价值，但不能代替测试。推理工程讲究的从来不是口号，而是每一次真实请求落到延迟、成本和质量上的账。

Google 给 Gemma 4 加上 MTP drafter：最高 3 倍加速，但别当成模型变聪明

Gemma 4 加速

更新本质

非能力跃迁

草稿验证

速度边界

收益依赖

命中率关键

受益场景

稳定任务

开放任务

接入策略

A/B 测试

暂缓承诺

后续变量

兼容成本

质量回归

Gemma 4 改的是生成路径，不是模型脑子

MTP drafter 为什么能快，也为什么不能神化

开发者该怎么动：先测自己的延迟账本