开源模型离闭源还差多远？别再迷信那一个总分榜了

核心摘要 Summary

开源模型和闭源前沿模型的差距还在，但今天最容易误读的地方，是大家总想用一个综合分数把这件事说完。
真正拉开差距的，越来越不是通用聊天题，而是复杂编码、终端任务、长上下文和专业 agent 工作流背后的数据、环境与产品入口。
企业采购更该算账：多出来的性能，到底是能力鸿沟，还是被评测设计和商业叙事一起放大的优势。

内容导图 Mind Map

开闭源差距

不能再看总分榜

榜单失真

综合分难代表实战

赛题迁移

重心转向复杂任务

评测脱节

高分不等于能落地

差距重心

关键在任务类型

开源逼近

公开基准已追得很近

闭源更稳

长链路与专业场景占优

优势来源

权重外资源更关键

训练换挡

RLVR依赖环境数据

入口垄断

数据工具分发构成壁垒

商业逻辑

前沿定义权被掌握

赛点迁移

持续转向更难补短板

采购判断

应看边际收益

低复杂场景

开闭源差异未必大

高复杂场景

闭源稳健性仍值钱

开源模型还在追闭源，这件事没变。变的是，今天这道差距已经很难再被一个“总分”概括。Nathan Lambert 这篇文章点得很准：业内常引用的 Artificial Analysis Intelligence Index，本质上只是约 10 个子评测拼出来的综合分，它能反映趋势，但不等于真实世界能力全貌。

更麻烦的是，赛道本身在换。ChatGPT 刚出来时，大家比的是聊天、数学、简单代码；现在重心已经转向推理模型、复杂编码、终端任务，再往会计、法律、医疗这类专业 agent 工作流推进。榜单还在，题目却换了。拿旧尺子量新战场，误差只会越来越大。

差距不再是“强几分”，而是“强在哪些任务”

原文里最重要的提醒，是别把开闭源差距看成一个抽象距离。今天更该问的是：差在哪，不差在哪。

公开基准上，开源模型追得很近，这不是虚张声势。它们在不少标准测试里已经非常能打，也绝不是只靠蒸馏捡便宜。但如果把场景换成长上下文、复杂 agent 连续执行、部分 OOD 测试，或者要在真实工作流里少出错、少重置上下文，闭源前沿模型通常还是更稳。

这也是为什么“基准很强，落地一般”会频繁出现。原文拿 Gemini 3 当例子，说的不是它全面失败，而是评测分数与真实部署场景，尤其 agent 场景，已经开始脱节。榜单像期中考试，企业上生产像值夜班。会做题，不等于能干活。

再看训练范式，也已经换挡。过去是 instruction tuning 和 RLHF 主导；现在更关键的是 RLVR，也就是强化学习配合可验证奖励。关键不只在模型权重，而在你有没有好的验证环境、私有数据、专业软件接口和足够多的训练场景。代码之所以卷得快，是因为 GitHub 这类公开资源多；法律、医疗、会计之所以更难追，是因为数据更私、流程更碎、环境更贵。

前沿实验室不只是更强，它们还在重定义“什么叫前沿”

我更在意的，是文章里那层没有说满但已经很清楚的现实：闭源前沿实验室的优势，不只是模型更强，而是它们有钱去买环境、买数据、买分发入口，再顺手把“下一代重要能力”也定义掉。

“天下熙熙，皆为利来。”这句放在今天的 AI 竞赛里，很贴。前沿公司为什么要把重心不断从聊天切到推理、从推理切到编码、再切到专业 agent？因为旧优势一旦被追平，营收故事就得换题。企业客户当然想降 token 成本；如果便宜得多的开源替代品在大多数任务上够用，闭源公司的高溢价就站不稳。于是最划算的做法，不只是领先，而是持续把赛点迁到别人最难补的地方。

这不是什么阴谋，更像铁路、电力时代就上演过的老戏码：真正值钱的从来不只是机器本身，而是围着机器修起来的专有基础设施、标准和入口。模型只是发动机，环境、数据、工具链和客户关系才是轨道。轨道在谁手里，谁就有资格宣布哪里才算“前沿”。

当然，我不太买账的一种偷懒说法，是把开源追赶简单归结为“刷榜”或“蒸馏”。原文也明确反对这种粗暴判断。开源模型确实强，而且很多时候强得超出预期；问题不在它们假强，而在当前训练重心越来越依赖昂贵环境采购和私有工作流，这部分天然更偏向头部闭源玩家。差距不是神话出来的，但也绝不该被一个总分神圣化。

企业客户该盯的，不是冠军榜，而是边际收益

对企业采购和产品负责人来说，这件事的现实含义很直接。

别再问“最强模型是谁”，先问四件事：

你的核心任务是公开基准题，还是长链条工作流？
多花的钱，买到的是更高成功率，还是只买到榜单光环？
集成成本、token 成本、供应商锁定，哪个才是大头？
一旦前沿能力换题，你现在绑定的供应商还能不能继续值这个价？

如果你的场景是通用问答、轻量代码辅助、标准文档处理，开源和闭源之间的边际差异，可能没有销售材料里说得那么大。可一旦你要做终端自动化、复杂开发流程、专业审阅，或者要求连续执行时少翻车，闭源头部模型的稳健性仍可能值回票价。

接下来最该观察的，不是下个榜单谁涨了几分，而是三件事：复杂 agent 任务的真实成功率有没有公开、专业领域 RL 环境是否开始商品化、企业客户是否真的开始大规模用更便宜模型替换闭源主力。看这个，比看排行榜热闹得多，也诚实得多。

锐评 Commentary

榜单能量分，量不了权力。真正的前沿，从来不是谁更会答题，而是谁有本事把考场搬到自己家里。

开源模型闭源模型模型评测Artificial Analysis Intelligence Index复杂编码长上下文Agent 工作流终端任务OOD 测试Nathan Lambert