开放模型集体上新，真正的分水岭不是榜单

核心摘要 Summary

过去一个月，Gemma 4、DeepSeek V4、Kimi K2.6、MiMo-V2.5-Pro、GLM-5.1 等开放模型密集发布，开放模型生态明显提速。
更关键的变化不在跑分，而在三件事：真实可用能力、评测口径、许可证治理。
CAISI 认为开放模型落后美国闭源前沿且差距扩大，但 Epoch AI 的 ECI 又给出更短差距，说明评测方法正在改写行业叙事。

过去一个月，开放模型像赶集一样上新。

Google 换了 Gemma 4，DeepSeek 推出 V4 Pro 和 Flash，Moonshot 更新 Kimi K2.6，小米拿出 MiMo-V2.5-Pro，智谱系 GLM-5.1 也继续往长任务走。热闹是真的热闹，但这次最该看的不是谁又刷了榜。

开放模型的竞争，已经从“参数、跑分、发布节奏”转到三条线：真实可用能力、评测口径、许可证治理。哪一条短，模型都会从“看起来能用”变成“项目里不敢押”。

这个月谁在动，重点看哪里

组织	这次动作	我会盯什么	对使用者的影响
Google	Gemma 4 发布，并改用 Apache 2.0	许可证变清楚	企业合规试点阻力下降
DeepSeek	V4 分 Pro 与 Flash	Flash 口碑更亮，Pro 相对体量不算惊艳	不能把 Pro、Flash 混成一个结论
Moonshot	Kimi K2.6 强调长任务能力	小时级任务和真实工作流	产品团队要看持续执行，不只看单题
小米	MiMo-V2.5-Pro 继续追近旗舰开放模型	工程进步速度	不宜再把小米当边缘玩家
智谱	GLM-5.1 更新，继续强化长任务	复杂任务稳定性	更适合放进真实场景评估

Gemma 4 改用 Apache 2.0，是这轮里容易被低估的一件事。

开源模型不是只给研究者玩的。产品负责人真正怕的，不是多跑两分少跑两分，而是许可证里的灰区：能不能商用，能不能改，出了纠纷谁承担。

Apache 2.0 的价值不性感，但很硬。它把“律师先看三周”这道门槛往下挪了一截。

对企业来说，这会改变试点顺序。以前可能先看模型能力，再找法务确认；现在 Gemma 4 至少可以更早进入合规清单。采购不会因此马上迁移，但会少一个卡点。

DeepSeek V4 的情况更微妙。Pro 和 Flash 不能放在一锅里评价。Flash 的反馈更亮，Pro 相对体量带来的惊喜感弱一些。

这对开发者的动作很具体：如果已经在做 DeepSeek 相关集成，应该把 Pro 和 Flash 分开压测。不要用一个模型的体验，替另一个模型背书。

CAISI 的评估很重，但不能当终审判决

DeepSeek V4 发布后，CAISI 做了评估。它的核心结论是：开放模型落后美国闭源前沿，而且差距在扩大。

这个判断很有冲击力，也很容易被拿去做标题。但方法细节决定了它不能被当成无争议定论。

CAISI 用 IRT 和 Elo 做跨 benchmark 比较。问题在于，DeepSeek V4 的总体差距，很大程度受几个测试影响：CTF-Archive-Diamond、PortBench、ARC-AGI-2。

这里面有子集外推，有 CAISI 私有 benchmark，也有和公开榜单不同的计分方式。换句话说，结论有参考价值，但口径很重。

这不代表 CAISI 错了。它至少提醒了一件事：开放模型离闭源最前沿仍有差距，尤其在复杂推理、安全、长链路任务上，不能靠情绪宣布追平。

但它也不是铁案。

Epoch AI 的 ECI 口径给出的图景更温和：自 R1 以来，开放与闭源的差距更像 3 到 7 个月。两个评估都试图解决跨测试比较问题，却讲出了不同强度的故事。

这就是当前评测的麻烦：它不只是测量工具，也在制造叙事。

你选什么题，怎么加权，用不用私有测试，是否允许模型进入熟悉的工具链，结论都会变形。差距可能被高估，也可能被低估。

写代码任务尤其明显。很多测试仍停留在固定 token、bash、for-loop 的简化环境里。但真实工作里，模型经常被放进 Claude Code、OpenCode 这类 harness，接编辑器、终端、检索、沙箱和自动评测。

拿简化靶场判断真实战场，会漏掉两类东西：一类是模型在工具链里的放大效应；另一类是长任务里的失控成本。

对产品负责人来说，这意味着采购和迁移都该慢半拍。不是停止试点，而是把评测拆开：静态 benchmark 看基础能力，工具链任务看真实产出，长任务看稳定性和预算。

我的判断：开放模型不缺热闹，缺的是能扛生产

我不太买账“开放模型已经全面追平闭源前沿”的说法。证据还不够。

我也不买账另一种轻慢：开放模型只是低价替代品，永远只能跟在后面吃灰。这个判断太懒。

现在的分水岭更具体。

分水岭	看什么	谁最受影响	该怎么做
工具链	能否接编辑器、终端、浏览器、检索、沙箱	AI 应用团队、开发者工具团队	用真实 harness 复测，不只看榜单
许可证	能否稳定商用、修改、分发	企业采购、法务、平台团队	Apache 2.0 这类标准许可证优先进入清单
长任务执行	是否跑偏、遗忘目标、乱改代码、浪费预算	做 agent、代码助手、办公自动化的团队	测小时级任务，记录失败类型和成本

模型不是孤零零回答问题的鹦鹉。没有工具链，强模型也像好发动机装在板车上。

许可证也不是边角料。商业世界里，“能不能合法、稳定、可预期地用”，经常比榜单高两分更重要。

长任务更是硬门槛。Kimi K2.6、GLM-5.1、MiMo-V2.5-Pro 都在强调真实使用和长周期任务，不是偶然。模型从 demo 走向生产，最先暴露的往往不是不会答题，而是中途跑偏、忘目标、乱改代码、烧掉预算。

这有点像早期铁路竞争。不完全一样，但结构相似：最快的机车当然重要，真正决定扩张速度的，是轨距、调度、维护和沿线商业。

古人讲“车同轨”。放到今天，就是模型要进生产，不能只看马力，还要看接口、规则和责任边界。

“天下熙熙，皆为利来。”开放模型今天的热闹也一样。开发者要自由，企业要确定性，平台要控制权，模型公司要分发和影响力。大家都喊开放，但各自要的东西并不相同。

所以别把 DeepSeek、Moonshot、Qwen、智谱、小米混成一个“中国开放模型阵营”。它们的产品位置、工程侧重、生态打法不同。

DeepSeek 的问题是 Pro 与 Flash 的预期差。Kimi 和 GLM 更明显押长任务。小米在证明自己不是边缘玩家。Qwen 代表的又是另一套生态和分发逻辑。

混在一起看，只会把细节看没。

接下来最该盯的不是发布页，而是三件小事：企业 PoC 有没有从聊天测试转到真实工作流；开发者工具有没有为开放模型做专门适配；标准许可证会不会成为新一轮企业采用的入场券。

开放模型不缺掌声了。

它缺的是把模型、工具、许可证和长任务执行拧成一根绳。做到这一步，开放模型才不是“可下载的前沿感”，而是真能进入生产系统的基础设施。

开放模型集体上新，真正的分水岭不是榜单

开放模型

集体上新

路线分化

角色各异

许可证

Gemma

评测口径

CAISI

ECI

生产门槛

工具链

长任务

后续变量

企业采用

开发适配

这个月谁在动，重点看哪里

CAISI 的评估很重，但不能当终审判决

我的判断：开放模型不缺热闹，缺的是能扛生产