过去一个月,开放模型像赶集一样上新。

Google 换了 Gemma 4,DeepSeek 推出 V4 Pro 和 Flash,Moonshot 更新 Kimi K2.6,小米拿出 MiMo-V2.5-Pro,智谱系 GLM-5.1 也继续往长任务走。热闹是真的热闹,但这次最该看的不是谁又刷了榜。

开放模型的竞争,已经从“参数、跑分、发布节奏”转到三条线:真实可用能力、评测口径、许可证治理。哪一条短,模型都会从“看起来能用”变成“项目里不敢押”。

这个月谁在动,重点看哪里

组织这次动作我会盯什么对使用者的影响
GoogleGemma 4 发布,并改用 Apache 2.0许可证变清楚企业合规试点阻力下降
DeepSeekV4 分 Pro 与 FlashFlash 口碑更亮,Pro 相对体量不算惊艳不能把 Pro、Flash 混成一个结论
MoonshotKimi K2.6 强调长任务能力小时级任务和真实工作流产品团队要看持续执行,不只看单题
小米MiMo-V2.5-Pro 继续追近旗舰开放模型工程进步速度不宜再把小米当边缘玩家
智谱GLM-5.1 更新,继续强化长任务复杂任务稳定性更适合放进真实场景评估

Gemma 4 改用 Apache 2.0,是这轮里容易被低估的一件事。

开源模型不是只给研究者玩的。产品负责人真正怕的,不是多跑两分少跑两分,而是许可证里的灰区:能不能商用,能不能改,出了纠纷谁承担。

Apache 2.0 的价值不性感,但很硬。它把“律师先看三周”这道门槛往下挪了一截。

对企业来说,这会改变试点顺序。以前可能先看模型能力,再找法务确认;现在 Gemma 4 至少可以更早进入合规清单。采购不会因此马上迁移,但会少一个卡点。

DeepSeek V4 的情况更微妙。Pro 和 Flash 不能放在一锅里评价。Flash 的反馈更亮,Pro 相对体量带来的惊喜感弱一些。

这对开发者的动作很具体:如果已经在做 DeepSeek 相关集成,应该把 Pro 和 Flash 分开压测。不要用一个模型的体验,替另一个模型背书。

CAISI 的评估很重,但不能当终审判决

DeepSeek V4 发布后,CAISI 做了评估。它的核心结论是:开放模型落后美国闭源前沿,而且差距在扩大。

这个判断很有冲击力,也很容易被拿去做标题。但方法细节决定了它不能被当成无争议定论。

CAISI 用 IRT 和 Elo 做跨 benchmark 比较。问题在于,DeepSeek V4 的总体差距,很大程度受几个测试影响:CTF-Archive-Diamond、PortBench、ARC-AGI-2。

这里面有子集外推,有 CAISI 私有 benchmark,也有和公开榜单不同的计分方式。换句话说,结论有参考价值,但口径很重。

这不代表 CAISI 错了。它至少提醒了一件事:开放模型离闭源最前沿仍有差距,尤其在复杂推理、安全、长链路任务上,不能靠情绪宣布追平。

但它也不是铁案。

Epoch AI 的 ECI 口径给出的图景更温和:自 R1 以来,开放与闭源的差距更像 3 到 7 个月。两个评估都试图解决跨测试比较问题,却讲出了不同强度的故事。

这就是当前评测的麻烦:它不只是测量工具,也在制造叙事。

你选什么题,怎么加权,用不用私有测试,是否允许模型进入熟悉的工具链,结论都会变形。差距可能被高估,也可能被低估。

写代码任务尤其明显。很多测试仍停留在固定 token、bash、for-loop 的简化环境里。但真实工作里,模型经常被放进 Claude Code、OpenCode 这类 harness,接编辑器、终端、检索、沙箱和自动评测。

拿简化靶场判断真实战场,会漏掉两类东西:一类是模型在工具链里的放大效应;另一类是长任务里的失控成本。

对产品负责人来说,这意味着采购和迁移都该慢半拍。不是停止试点,而是把评测拆开:静态 benchmark 看基础能力,工具链任务看真实产出,长任务看稳定性和预算。

我的判断:开放模型不缺热闹,缺的是能扛生产

我不太买账“开放模型已经全面追平闭源前沿”的说法。证据还不够。

我也不买账另一种轻慢:开放模型只是低价替代品,永远只能跟在后面吃灰。这个判断太懒。

现在的分水岭更具体。

分水岭看什么谁最受影响该怎么做
工具链能否接编辑器、终端、浏览器、检索、沙箱AI 应用团队、开发者工具团队用真实 harness 复测,不只看榜单
许可证能否稳定商用、修改、分发企业采购、法务、平台团队Apache 2.0 这类标准许可证优先进入清单
长任务执行是否跑偏、遗忘目标、乱改代码、浪费预算做 agent、代码助手、办公自动化的团队测小时级任务,记录失败类型和成本

模型不是孤零零回答问题的鹦鹉。没有工具链,强模型也像好发动机装在板车上。

许可证也不是边角料。商业世界里,“能不能合法、稳定、可预期地用”,经常比榜单高两分更重要。

长任务更是硬门槛。Kimi K2.6、GLM-5.1、MiMo-V2.5-Pro 都在强调真实使用和长周期任务,不是偶然。模型从 demo 走向生产,最先暴露的往往不是不会答题,而是中途跑偏、忘目标、乱改代码、烧掉预算。

这有点像早期铁路竞争。不完全一样,但结构相似:最快的机车当然重要,真正决定扩张速度的,是轨距、调度、维护和沿线商业。

古人讲“车同轨”。放到今天,就是模型要进生产,不能只看马力,还要看接口、规则和责任边界。

“天下熙熙,皆为利来。”开放模型今天的热闹也一样。开发者要自由,企业要确定性,平台要控制权,模型公司要分发和影响力。大家都喊开放,但各自要的东西并不相同。

所以别把 DeepSeek、Moonshot、Qwen、智谱、小米混成一个“中国开放模型阵营”。它们的产品位置、工程侧重、生态打法不同。

DeepSeek 的问题是 Pro 与 Flash 的预期差。Kimi 和 GLM 更明显押长任务。小米在证明自己不是边缘玩家。Qwen 代表的又是另一套生态和分发逻辑。

混在一起看,只会把细节看没。

接下来最该盯的不是发布页,而是三件小事:企业 PoC 有没有从聊天测试转到真实工作流;开发者工具有没有为开放模型做专门适配;标准许可证会不会成为新一轮企业采用的入场券。

开放模型不缺掌声了。

它缺的是把模型、工具、许可证和长任务执行拧成一根绳。做到这一步,开放模型才不是“可下载的前沿感”,而是真能进入生产系统的基础设施。