Google 这次给 Gemma 4 的数字很醒目:推理最高 3x 加速。
但这个“3x”最容易被误读。它说的是推理阶段的速度上限,不是模型能力突然跃迁,也不是所有场景稳定快 3 倍。
2026 年 5 月 5 日,Google 在官方博客宣布,为 Gemma 4 引入 Multi-Token Prediction(MTP)drafter。受影响最大的不是普通聊天用户,而是把 Gemma 4 跑在本地或服务端的开发者。
他们关心的不是一句宣传语,而是三件事:token/s 能不能上去,长回答延迟能不能降下来,同样机器能不能多扛一些请求。
Gemma 4 改的是生成路径,不是模型脑子
这次更新的核心是 MTP drafter。按官方表述,它用于提升 Gemma 4 的推理速度,最高可达 3x。
这里要分清两件事。
推理加速,是让模型生成答案更快。模型能力提升,是让模型更会理解、更会推理、知识覆盖更强。Google 这次披露的重点在前者,不是后者。
MTP drafter 更像推理阶段的工程优化。主模型仍负责最终输出质量,drafter 先预测多个后续 token,再由主模型验证或接收。草稿准,就能少走一些逐 token 生成的慢路。
这对 Gemma 4 的意义不小。开放模型竞争早就不只看榜单分数了。能不能在本地设备、私有服务器、现有推理框架里跑得顺,也会影响开发者是否愿意用。
| 问题 | 这次更新能回答什么 | 不能直接推出什么 |
|---|---|---|
| 速度 | 官方称推理最高 3x 加速 | 所有任务稳定 3 倍 |
| 能力 | 生成等待可能减少 | 理解、推理、知识能力变强 |
| 对象 | 本地或服务端推理开发者受益更直接 | 普通用户一定立刻感知 |
| 性质 | MTP drafter 是推理优化 | 不是新的基础模型 |
所以,这不是“Gemma 4 变聪明了”。更准确的说法是:Google 给 Gemma 4 补了一条更快吐字的推理路径。
MTP drafter 为什么能快,也为什么不能神化
传统自回归生成有一个天然慢点:模型通常按 token 一步一步往外生成。每走一步,都要基于已有上下文再算下一步。
MTP drafter 的思路,是先给出一小段候选。主模型再集中检查这些候选。如果候选被接受,生成就能一次推进多个 token。
这个思路和业界常见的 speculative decoding 接近,都是用“草稿—验证”换速度。
但速度不是白来的。drafter 猜得准,收益就高;猜得不准,验证和回退也会消耗计算。最后能快多少,要看任务、实现和运行环境。
更可能吃到收益的,是可预测性较强的任务。比如代码补全、格式化文本、模板化回复、摘要生成里的固定结构段落。
收益更不稳定的,是开放式创作、复杂推理、多轮对话中频繁改方向的场景。模型下一步要说什么越不确定,草稿命中率就越难保证。
这也是“最高 3x”必须谨慎看的原因。它是上限数字,不是容量规划表里的固定系数。
目前公开线索里,没有可直接引用的具体 benchmark 条件、硬件配置、模型尺寸、成本变化或各任务分项数据。开发团队不应该把“3x”直接写进 SLA,也不该据此马上改预算。
开发者该怎么动:先测自己的延迟账本
最相关的两类人,是 AI 应用开发者和推理基础设施负责人。
如果团队已经在用 Gemma 4 做本地推理或服务端推理,可以把 MTP drafter 放进测试队列。不要先迁移生产环境,先拿自己的真实提示词跑一轮。
更具体一点,动作可以很简单:
| 角色 | 建议动作 | 观察指标 |
|---|---|---|
| AI 应用开发者 | 用现有业务 prompt 做 A/B 测试 | 首 token 延迟、输出 token/s、长回答耗时 |
| 推理基础设施负责人 | 检查现有框架、量化和批处理策略是否兼容 | 吞吐、显存占用、并发下稳定性 |
| 技术决策者 | 暂缓把 3x 写进采购或扩容假设 | 实测收益、接入成本、质量回归 |
我更在意的是质量回归。
推理加速如果只让输出更快,当然好。但如果接入后带来输出差异、拒答变化、边界案例增多,开发者还是要重新评估。尤其是客服、文档问答、代码助手这类产品,速度提升不能换来稳定性下降。
对还没用 Gemma 4 的团队,也不必因为一个 3x 数字马上迁移。更现实的做法是观望工具链支持情况。看它是否进入主流推理框架,看部署文档是否清楚,看不同任务下有没有更完整的实测数据。
这件事真正该盯的,不是博客标题里的最高倍数,而是三组变量:
- 不同任务下,草稿命中率和实际 token/s 提升;
- 本地、服务端、批处理场景里的兼容成本;
- 加速后,输出质量和边界行为是否稳定。
如果这些变量跑通,MTP drafter 就会从一个技术亮点变成开发者愿意默认开启的能力。若跑不通,它也可能只是特定场景里的好用优化。
回到开头那个 3x。它有价值,但不能代替测试。推理工程讲究的从来不是口号,而是每一次真实请求落到延迟、成本和质量上的账。
