GLM-5.2 这次最扎眼的,不是又刷了一个榜。

它用和 GLM-5.1 一样的模型体量,在 Artificial Analysis Intelligence Index v4.1 拿到 51 分,压过 MiniMax-M3、DeepSeek V4 Pro max 和 Kimi K2.6,成为该指数下当前领先的开源权重模型。

但另一组数字更值得盯住:平均每个任务输出 43k token,其中 37k 是 reasoning。

也就是说,它确实更能想了。问题是,这个“想”开始变贵。

51 分赢在哪里,也要看清赢在什么体系里

GLM-5.2 的基础信息不复杂。

变量GLM-5.2直接含义
Intelligence Index v4.151 分在 Artificial Analysis 该指数下领先开源权重模型
参数规模744B 总参数,40B 激活参数与 GLM-5.1 同规模
上下文窗口1M从 GLM-5.1 的 200K 提升
API 价格input/output/cache hit:1.4/4.4/0.26 美元/百万 token维持 GLM-5.1 水平
单任务成本约 0.46 美元进入 Intelligence vs Cost per Task 帕累托前沿

它强的地方集中在三类任务:科学推理、代码/终端任务、长程 agent。

Artificial Analysis 的细项里,GLM-5.2 在 CritPt、HLE、SciCode、TerminalBench v2.1 等评测上都有提升。GDPval-AA v2 得分 1524,领先 MiniMax-M3 的 1418 和 DeepSeek V4 Pro max 的 1328,也接近 GPT-5.5 xhigh reasoning 的 1514。

这句话要小心读。

它不是说 GLM-5.2 在所有真实业务里追平 GPT-5.5。它只能说明,在 GDPval-AA v2 这个强调长程 agent、并使用模型评审的评测里,GLM-5.2 已经打到很靠前的位置。

但这已经够重要。

过去开源权重模型常被放在一个固定位置:便宜、可控、能部署,但前沿能力差半口气。GLM-5.2 给出的信号是,这半口气正在变薄。

对跟踪中美大模型竞争的人来说,这不是一句口号。它说明开源权重路线正在把压力推回闭源厂商:闭源模型不能只靠“能力领先”讲故事,还要解释为什么更贵、更封闭仍然值得。

开发者该看 43k token,不该只看 51 分

我更在意的是 43k 输出 token。

GLM-5.2 在 Intelligence Index 任务中平均输出 43k token,高于 GLM-5.1 的 26k,也高于 MiniMax-M3 的 24k、Kimi K2.6 的 35k、DeepSeek V4 Pro max 的 37k。其中 37k 是 reasoning。

对开发者和技术决策者,这会直接改变选型。

模型平均输出 token/任务单任务成本
GLM-5.243k约 0.46 美元
GLM-5.126k约 0.25 美元
Kimi K2.635k约 0.31 美元
MiniMax-M324k约 0.18 美元
DeepSeek V4 Pro max37k约 0.05 美元

GLM-5.2 进入帕累托前沿,说明在这个智能水平上,它的成本不是失控的。

但它也不是 token 效率最漂亮的那个。

这就是今天模型评测的灰区:分数是能力,token 是燃料。模型可以靠更长推理拿到更好结果,可企业付费时,账单按 token 走,延迟也跟着 token 走。

如果你在做代码 agent、科研辅助、复杂文档分析,GLM-5.2 值得进入候选池。尤其是需要长上下文、又希望保留开源权重弹性的团队,可以安排评测。

但如果你的业务是高并发客服、轻量内容生成、低客单价自动化,别急着迁移。更现实的动作是延后采购定论,把 GLM-5.2 放进 A/B 测试,看三件事:任务成功率、平均延迟、端到端成本。

MIT 开源权重确实友好,但不等于零成本。它降低的是控制权门槛,不是工程账单。

“天下熙熙,皆为利来。”放到模型市场里,就是开发者最后会看缓存命中、吞吐、失败重试、部署约束和预算上限。榜单截图不能替你付云账单。

开源逼近闭源后,分水岭换了

GLM-5.2 值得给正面评价。

参数规模没变,上下文从 200K 拉到 1M,科学推理和长程 agent 任务上升明显。这至少表明,Z.ai 不只是堆大模型,而是在训练、推理策略和长上下文能力上做了有效改进。

但它也把一个新问题摆到台面上:开源权重模型逼近闭源前沿之后,竞争不再只是“谁更开放”。

新的分水岭会变成三件事:

  • 谁能用更少 token 得到同样质量;
  • 谁能在长程任务里少绕路、少自嗨;
  • 谁能把模型能力稳定转成产品体验,而不是只转成榜单排名。

这有点像早期互联网公司拼服务器和带宽。不完全一样,但逻辑相似:跑起来只是第一步,跑得起才是生意。

GLM-5.2 这次跑到了前排。对研究者、长上下文应用、重 agent 场景,这是好消息。对成本敏感的企业应用,它还需要过一遍真实任务账本。

接下来最该观察的,不是它还能不能再刷一个榜。

我会看三件事:GLM-5.2 能不能压低 reasoning token;1M 上下文在真实长文档任务里是否稳定;同样任务下,它和闭源模型的端到端成本差距到底有多大。

如果这三项继续改善,51 分才会从榜单成绩变成迁移理由。

如果 43k token 长期压不下来,它更像一个强但重的选择:适合难题,不适合所有题。

榜单上的 51 分很亮。真正决定它能走多远的,是那 43k token 能不能被压下来。