谷歌 DeepMind 发布 Gemma 4,这一代最值得写进标题的,不是榜单名次,而是授权方式和落地路径一起变了。新模型以 Apache 2.0 许可发布,覆盖 31B dense、26B MoE 以及面向边缘设备的 E4B、E2B 版本,同时主打多模态、最长 256K 上下文、函数调用和结构化 JSON 输出。对开发者来说,这比单纯多几个 benchmark 分更有实际意义:能不能商用、能不能本地跑、能不能接进现有工具链,决定了它是不是“新闻”,还是“可用的产品”。
谷歌过去在开源模型上的姿态一直不算激进。Gemma 4 这次的动作更像一次补课,而且是带着紧迫感的补课。过去一年,Meta 的 Llama、阿里的 Qwen、Mistral 以及 DeepSeek 已经把“开源可用”从社区口号做成了事实标准;如果谷歌还停留在研究展示,它会继续缺席开发者的默认工具清单。Gemma 4 的发布说明,谷歌终于决定参与这场现实竞争,但它现在争的不是舆论声量,而是本地推理和代理应用这一层的入口。
Apache 2.0 加上 Day-0 生态支持,才是这次发布的核心
Gemma 4 最大的变化,是谷歌第一次把“开放权重”做得更像真正的开发者产品。Apache 2.0 是商业上非常宽松的许可,这和此前 Gemma 系列相对保守的授权相比,是实打实的门槛下降。Jeff Dean 在公开帖文里提到,Gemma 3 已有 4 亿次下载、10 万个变体,谷歌显然已经看到:真正能放大模型影响力的,不是官方 API,而是别人愿不愿意拿你的模型二次开发。
更关键的是,Gemma 4 并没有停在发布博客。llama.cpp、Ollama、vLLM、LM Studio、Transformers、transformers.js 几乎同步支持,ggerganov 还演示了 Gemma 4 26B A4B 在 M2 Ultra 上的本地运行,给出 300 tokens/s 的案例。这个数字未必能代表所有真实场景,但它传递了一个很明确的信号:谷歌这次不想让 Gemma 4 只活在云上,也不想让开发者等上几周才能用。
开源模型圈的行业现实很简单:模型能力是一层,工具链兼容才是另一层门槛。很多模型不是输在性能,而是输在“别人懒得适配”。
它重要在“可部署”,不重要在“榜单赢没赢”
Gemma 4 31B 在 Arena 等榜单上的位置不错,人工分析机构给出的 GPQA Diamond 85.7% 也很亮眼,社区里甚至出现了“打赢 20 倍参数模型”的说法。但这类结论要打折看。偏好型排行榜容易被回答风格、提示工程乃至刷榜策略影响,Raschka 的判断更稳妥:Gemma 4 的提升未必来自架构革命,更可能来自训练配方和数据质量的进步。
从公开信息看,Gemma 4 用了混合注意力、滑动窗口、GQA、KV cache sharing 等效率优化,还有一种和 DeepSeek、Qwen 不太一样的 MoE 分层方式。可这些设计真正服务的方向,不是“论文观感”,而是推理成本。说白了,Gemma 4 最有现实价值的场景,不是向 GPT-5 或 Gemini 顶级闭源模型宣战,而是让企业和个人在一张 4090、一台 Mac Studio,甚至浏览器 WebGPU 上,跑出够用的多模态代理能力。
这里可以把几条路线放在一起看:
| 模型/路线 | 主要优势 | 现实短板 | 更适合谁 |
|---|---|---|---|
| Gemma 4 | 授权放宽、谷歌系生态、Day-0 本地支持 | 真实长上下文和代理稳定性还要验证 | 想商用部署的开发者、工具厂商 |
| Qwen 系列 | 开源节奏快,中文和工具调用口碑稳定 | 海外生态声量略弱于 Llama | 国内团队、双语应用开发 |
| Llama 系列 | 社区最大,适配最成熟 | 近几代惊喜度下降 | 需要“稳妥默认选项”的团队 |
| DeepSeek 路线 | 性价比高,推理/推理训练思路激进 | 企业级合规和长期支持仍待观察 | 成本敏感型团队、研究社区 |
对开发者和企业,变化会先体现在采购和选型上
如果你是做 AI 产品的团队,Gemma 4 带来的最现实变化,不是“要不要立刻换模型”,而是选型表里多了一个更像样的谷歌选项。以前提到谷歌模型,很多企业想到的是 Gemini API;现在可以把 Gemma 4 放进本地部署、私有化、边缘推理的方案里。对金融、政企、医疗这类看重数据边界的客户,这个差别很具体:预算可能从 API 调用费转到 GPU 和运维,法务对许可证的阻力也会小很多。
几类人会更直接感受到变化:
- 本地 AI 工具开发者.更容易接入函数调用和结构化输出
- 独立开发者.Mac、4090 级设备上可做更像样的多模态实验
- 企业采购与架构团队.多了一个可商用、可私有化的谷歌系备选
- 开源社区维护者.适配动力更强,因为许可和流量都更友好
但普通用户未必会立刻感知到 Gemma 4。它不是一个像 ChatGPT 新版本那样直接改变界面的消费级产品,更像底层零件更新。用户真正会看到的,是几周或几个月后更多本地助手、文档处理工具、浏览器内 AI、轻量代理应用开始改用它,而不是今天就去手动下载一个 31B 模型。
还有两个变量,决定 Gemma 4 能走多远
第一是安全和对抗问题。原始社区讨论已经开始出现对 Gemma 4 安全性、可利用性的关注,这并不意外。开放权重带来更快的研究和落地,也会带来更快的 jailbreak、越狱提示、模型滥用测试。谷歌过去更擅长做受控 API 服务,未必同样擅长管理一个真正开放的模型生态。
第二是持续投入,而不是首日热度。很多模型发布当天都能拿到 llama.cpp 支持和一波跑分截图,真正拉开差距的是后续几个月:微调框架是否完善、量化版本是否稳定、企业支持是否跟上、社区是不是持续提交变体。Meta 的 Llama 之所以成为事实标准,靠的从来不只是一场发布会;Gemma 4 现在只是拿到了入场券,还没有坐稳主桌。
