有个日期很适合在 AI 圈传播:2026 年 12 月 3 日。
按 Artificial Analysis 的 Intelligence Index 单一综合指数看,开放权重 LLM 和闭源前沿模型的差距,自 2024 年夏季起持续缩小。把趋势线往前拉,差距会在 2026 年 12 月 3 日归零。
这个日期很漂亮,也很危险。
Doubleword 做了一次更朴素的复算:不用一把尺子,改用 Artificial Analysis 的 18 项指标来量。结果没那么像大结局。多指标平均后,开放权重与闭源前沿的差距趋势几乎持平,长期大约略低于 5 个月。
那个日期,只是一把尺子的外推
这里的“差距”,不是参数量,不是下载量,也不是社区热度。
它指的是:当开放权重前沿模型达到某个能力水平时,闭源前沿模型在多久以前已经达到过这个水平。说白了,是一个“能力滞后时间”。
关键信息压成一张表:
| 口径 | 结果 | 该怎么读 |
|---|---|---|
| 单一 Intelligence Index | 自 2024 年夏季起差距持续缩小,并线性外推到 2026 年 12 月 3 日归零 | 这是单指标趋势,不是确定预测 |
| 18 项指标平均 | 差距曲线几乎持平,约略低于 5 个月 | 开放权重在追,但没有看到全面加速逼近 |
| 编码 benchmark | 从约落后 15 个月缩到约 1-2 个月 | 这是改善最明显的来源 |
| 其他指标 | 没有同样乐观,部分差距仍在 | 不能把 coding 的追赶外推到全部能力 |
这张表比那个日期重要。
开放权重模型确实变强了。尤其是编码能力,追得很快。但“编码接近”不是“整体追平”。中间隔着推理、可靠性、工具使用、长上下文、产品集成等一整套能力结构。
对研发团队来说,这会直接影响选型。代码补全、脚本生成、内部工具这类任务,可以更认真评估开放权重方案。涉及复杂推理、稳定交付和高风险业务判断的场景,最好别拿一个总分拍板。
benchmark 有用,但总分最会讲故事
我不太买账的,是把单一综合指数当成行业命运线。
Artificial Analysis 的 Intelligence Index 不是没价值。它把复杂能力压成一个可比较的分数,也和不少人的模型体感有相关性。问题在于,综合指数一旦进入传播链,就会变成叙事燃料。
科技行业一直这样。
PC 时代看主频,手机时代看跑分,云计算时代看算力单价。数字越简单,越容易被拿来当旗帜。可真正决定体验和胜负的,常常藏在数字背后:稳定性、延迟、成本、生态、数据闭环、工程执行。
“天下熙熙,皆为利来。”放到今天的 AI,也很贴切。开放权重阵营需要证明自己正在逼近。闭源公司需要证明护城河还在。产品团队需要一个选型理由。投资人需要一条好懂的趋势线。
于是 benchmark 从测量工具,滑向叙事机器。
这不是说 benchmark 不可信,而是说它不能单独替你做判断。尤其是 LLM 质量,本来就高度依赖测试集设计、任务权重、评分方式和时间窗口。一个总分上升,可能来自多项能力同步进步,也可能只是某个高权重任务突然拉高。
Doubleword 这次复算的意义就在这里:它没有否认开放权重进步,而是把“进步发生在哪里”拆了出来。编码很强,平均差距未必同步收窄。这两个结论可以同时成立。
真正该观察的,不是追平日,而是哪条能力曲线在动
我的判断很简单:开放权重模型会继续逼近闭源前沿,但“全面追平”目前更像测量口径上的胜利,不是能力结构上的胜利。
开放权重的优势很清楚。扩散快,试错快,社区改造快。标准化任务、编码任务、可用大量合成数据训练的任务,最容易被压缩差距。
闭源前沿也不是只靠神秘感撑着。它们通常有更集中的训练预算,更连续的产品反馈,更封闭的数据管线,以及把模型能力做成稳定服务的工程能力。这些东西不如 benchmark 好传播,但很难复制。
所以接下来更该看三件事:
| 观察变量 | 为什么关键 | 对谁影响最大 |
|---|---|---|
| 编码以外的指标是否同步收窄 | 决定追赶是不是从局部扩展到整体 | AI 产品团队、模型选型负责人 |
| 开放权重模型的稳定性和成本曲线 | 决定能不能从实验室跑进生产环境 | 企业研发、私有化部署团队 |
| 闭源模型是否继续拉开复杂推理和产品体验 | 决定闭源护城河还剩多厚 | 高风险业务、商业应用团队 |
企业客户的动作也会更现实。
如果任务边界清楚、容错空间大,可以推迟一部分闭源采购,拿开放权重做替代评估。省下来的不只是调用费,还有数据不出域和可控部署的空间。
如果业务依赖长链路推理、稳定工具调用、低幻觉和可追责结果,就不该急着迁移。开放权重可以进入备选池,但不等于马上替换闭源前沿。
开发者也一样。写代码、改测试、生成脚手架,可以更大胆地试开放权重模型。做复杂 agent、企业知识问答、自动化决策,仍要把评估拆细。别只看榜单名次,要看任务失败的代价。
2026 年 12 月 3 日不是预言。它更像一面镜子,照出行业多容易被一条好看的线牵着走。
模型在变强,决策反而要慢一点。尺子选错了,结论会跑得比模型还快。
