GLM-5.2 登顶开源权重榜：51 分很亮，43k token 更刺眼

核心摘要 Summary

Z.ai 的 GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 拿到 51 分，成为该评测体系下当前领先的开源权重模型，并进入智能表现与任务成本的帕累托前沿。
它的进步很实在：同样 744B 总参数、40B 激活参数，上下文从 200K 拉到 1M，科学推理和长程 agent 任务明显增强。
但代价也写在账单上：平均每个任务输出 43k token，其中 37k 是 reasoning。
开源权重模型正在逼近闭源前沿，可“会不会”之后，真正要算的是“划不划算”。

GLM-5.2 这次最扎眼的，不是又刷了一个榜。

它用和 GLM-5.1 一样的模型体量，在 Artificial Analysis Intelligence Index v4.1 拿到 51 分，压过 MiniMax-M3、DeepSeek V4 Pro max 和 Kimi K2.6，成为该指数下当前领先的开源权重模型。

但另一组数字更值得盯住：平均每个任务输出 43k token，其中 37k 是 reasoning。

也就是说，它确实更能想了。问题是，这个“想”开始变贵。

51 分赢在哪里，也要看清赢在什么体系里

GLM-5.2 的基础信息不复杂。

变量	GLM-5.2	直接含义
Intelligence Index v4.1	51 分	在 Artificial Analysis 该指数下领先开源权重模型
参数规模	744B 总参数，40B 激活参数	与 GLM-5.1 同规模
上下文窗口	1M	从 GLM-5.1 的 200K 提升
API 价格	input/output/cache hit：1.4/4.4/0.26 美元/百万 token	维持 GLM-5.1 水平
单任务成本	约 0.46 美元	进入 Intelligence vs Cost per Task 帕累托前沿

它强的地方集中在三类任务：科学推理、代码/终端任务、长程 agent。

Artificial Analysis 的细项里，GLM-5.2 在 CritPt、HLE、SciCode、TerminalBench v2.1 等评测上都有提升。GDPval-AA v2 得分 1524，领先 MiniMax-M3 的 1418 和 DeepSeek V4 Pro max 的 1328，也接近 GPT-5.5 xhigh reasoning 的 1514。

这句话要小心读。

它不是说 GLM-5.2 在所有真实业务里追平 GPT-5.5。它只能说明，在 GDPval-AA v2 这个强调长程 agent、并使用模型评审的评测里，GLM-5.2 已经打到很靠前的位置。

但这已经够重要。

过去开源权重模型常被放在一个固定位置：便宜、可控、能部署，但前沿能力差半口气。GLM-5.2 给出的信号是，这半口气正在变薄。

对跟踪中美大模型竞争的人来说，这不是一句口号。它说明开源权重路线正在把压力推回闭源厂商：闭源模型不能只靠“能力领先”讲故事，还要解释为什么更贵、更封闭仍然值得。

开发者该看 43k token，不该只看 51 分

我更在意的是 43k 输出 token。

GLM-5.2 在 Intelligence Index 任务中平均输出 43k token，高于 GLM-5.1 的 26k，也高于 MiniMax-M3 的 24k、Kimi K2.6 的 35k、DeepSeek V4 Pro max 的 37k。其中 37k 是 reasoning。

对开发者和技术决策者，这会直接改变选型。

模型	平均输出 token/任务	单任务成本
GLM-5.2	43k	约 0.46 美元
GLM-5.1	26k	约 0.25 美元
Kimi K2.6	35k	约 0.31 美元
MiniMax-M3	24k	约 0.18 美元
DeepSeek V4 Pro max	37k	约 0.05 美元

GLM-5.2 进入帕累托前沿，说明在这个智能水平上，它的成本不是失控的。

但它也不是 token 效率最漂亮的那个。

这就是今天模型评测的灰区：分数是能力，token 是燃料。模型可以靠更长推理拿到更好结果，可企业付费时，账单按 token 走，延迟也跟着 token 走。

如果你在做代码 agent、科研辅助、复杂文档分析，GLM-5.2 值得进入候选池。尤其是需要长上下文、又希望保留开源权重弹性的团队，可以安排评测。

但如果你的业务是高并发客服、轻量内容生成、低客单价自动化，别急着迁移。更现实的动作是延后采购定论，把 GLM-5.2 放进 A/B 测试，看三件事：任务成功率、平均延迟、端到端成本。

MIT 开源权重确实友好，但不等于零成本。它降低的是控制权门槛，不是工程账单。

“天下熙熙，皆为利来。”放到模型市场里，就是开发者最后会看缓存命中、吞吐、失败重试、部署约束和预算上限。榜单截图不能替你付云账单。

开源逼近闭源后，分水岭换了

GLM-5.2 值得给正面评价。

参数规模没变，上下文从 200K 拉到 1M，科学推理和长程 agent 任务上升明显。这至少表明，Z.ai 不只是堆大模型，而是在训练、推理策略和长上下文能力上做了有效改进。

但它也把一个新问题摆到台面上：开源权重模型逼近闭源前沿之后，竞争不再只是“谁更开放”。

新的分水岭会变成三件事：

谁能用更少 token 得到同样质量；
谁能在长程任务里少绕路、少自嗨；
谁能把模型能力稳定转成产品体验，而不是只转成榜单排名。

这有点像早期互联网公司拼服务器和带宽。不完全一样，但逻辑相似：跑起来只是第一步，跑得起才是生意。

GLM-5.2 这次跑到了前排。对研究者、长上下文应用、重 agent 场景，这是好消息。对成本敏感的企业应用，它还需要过一遍真实任务账本。

接下来最该观察的，不是它还能不能再刷一个榜。

我会看三件事：GLM-5.2 能不能压低 reasoning token；1M 上下文在真实长文档任务里是否稳定；同样任务下，它和闭源模型的端到端成本差距到底有多大。

如果这三项继续改善，51 分才会从榜单成绩变成迁移理由。

如果 43k token 长期压不下来，它更像一个强但重的选择：适合难题，不适合所有题。

榜单上的 51 分很亮。真正决定它能走多远的，是那 43k token 能不能被压下来。

GLM-5.2 登顶开源权重榜：51 分很亮，43k token 更刺眼

GLM 5.2

榜单领先

体系边界

能力增量

长上下文

成本刺点

推理过长

选型分化

适合场景

51 分赢在哪里，也要看清赢在什么体系里

开发者该看 43k token，不该只看 51 分

开源逼近闭源后，分水岭换了