GLM-5.2 这次最扎眼的,不是又刷了一个榜。
它用和 GLM-5.1 一样的模型体量,在 Artificial Analysis Intelligence Index v4.1 拿到 51 分,压过 MiniMax-M3、DeepSeek V4 Pro max 和 Kimi K2.6,成为该指数下当前领先的开源权重模型。
但另一组数字更值得盯住:平均每个任务输出 43k token,其中 37k 是 reasoning。
也就是说,它确实更能想了。问题是,这个“想”开始变贵。
51 分赢在哪里,也要看清赢在什么体系里
GLM-5.2 的基础信息不复杂。
| 变量 | GLM-5.2 | 直接含义 |
|---|---|---|
| Intelligence Index v4.1 | 51 分 | 在 Artificial Analysis 该指数下领先开源权重模型 |
| 参数规模 | 744B 总参数,40B 激活参数 | 与 GLM-5.1 同规模 |
| 上下文窗口 | 1M | 从 GLM-5.1 的 200K 提升 |
| API 价格 | input/output/cache hit:1.4/4.4/0.26 美元/百万 token | 维持 GLM-5.1 水平 |
| 单任务成本 | 约 0.46 美元 | 进入 Intelligence vs Cost per Task 帕累托前沿 |
它强的地方集中在三类任务:科学推理、代码/终端任务、长程 agent。
Artificial Analysis 的细项里,GLM-5.2 在 CritPt、HLE、SciCode、TerminalBench v2.1 等评测上都有提升。GDPval-AA v2 得分 1524,领先 MiniMax-M3 的 1418 和 DeepSeek V4 Pro max 的 1328,也接近 GPT-5.5 xhigh reasoning 的 1514。
这句话要小心读。
它不是说 GLM-5.2 在所有真实业务里追平 GPT-5.5。它只能说明,在 GDPval-AA v2 这个强调长程 agent、并使用模型评审的评测里,GLM-5.2 已经打到很靠前的位置。
但这已经够重要。
过去开源权重模型常被放在一个固定位置:便宜、可控、能部署,但前沿能力差半口气。GLM-5.2 给出的信号是,这半口气正在变薄。
对跟踪中美大模型竞争的人来说,这不是一句口号。它说明开源权重路线正在把压力推回闭源厂商:闭源模型不能只靠“能力领先”讲故事,还要解释为什么更贵、更封闭仍然值得。
开发者该看 43k token,不该只看 51 分
我更在意的是 43k 输出 token。
GLM-5.2 在 Intelligence Index 任务中平均输出 43k token,高于 GLM-5.1 的 26k,也高于 MiniMax-M3 的 24k、Kimi K2.6 的 35k、DeepSeek V4 Pro max 的 37k。其中 37k 是 reasoning。
对开发者和技术决策者,这会直接改变选型。
| 模型 | 平均输出 token/任务 | 单任务成本 |
|---|---|---|
| GLM-5.2 | 43k | 约 0.46 美元 |
| GLM-5.1 | 26k | 约 0.25 美元 |
| Kimi K2.6 | 35k | 约 0.31 美元 |
| MiniMax-M3 | 24k | 约 0.18 美元 |
| DeepSeek V4 Pro max | 37k | 约 0.05 美元 |
GLM-5.2 进入帕累托前沿,说明在这个智能水平上,它的成本不是失控的。
但它也不是 token 效率最漂亮的那个。
这就是今天模型评测的灰区:分数是能力,token 是燃料。模型可以靠更长推理拿到更好结果,可企业付费时,账单按 token 走,延迟也跟着 token 走。
如果你在做代码 agent、科研辅助、复杂文档分析,GLM-5.2 值得进入候选池。尤其是需要长上下文、又希望保留开源权重弹性的团队,可以安排评测。
但如果你的业务是高并发客服、轻量内容生成、低客单价自动化,别急着迁移。更现实的动作是延后采购定论,把 GLM-5.2 放进 A/B 测试,看三件事:任务成功率、平均延迟、端到端成本。
MIT 开源权重确实友好,但不等于零成本。它降低的是控制权门槛,不是工程账单。
“天下熙熙,皆为利来。”放到模型市场里,就是开发者最后会看缓存命中、吞吐、失败重试、部署约束和预算上限。榜单截图不能替你付云账单。
开源逼近闭源后,分水岭换了
GLM-5.2 值得给正面评价。
参数规模没变,上下文从 200K 拉到 1M,科学推理和长程 agent 任务上升明显。这至少表明,Z.ai 不只是堆大模型,而是在训练、推理策略和长上下文能力上做了有效改进。
但它也把一个新问题摆到台面上:开源权重模型逼近闭源前沿之后,竞争不再只是“谁更开放”。
新的分水岭会变成三件事:
- 谁能用更少 token 得到同样质量;
- 谁能在长程任务里少绕路、少自嗨;
- 谁能把模型能力稳定转成产品体验,而不是只转成榜单排名。
这有点像早期互联网公司拼服务器和带宽。不完全一样,但逻辑相似:跑起来只是第一步,跑得起才是生意。
GLM-5.2 这次跑到了前排。对研究者、长上下文应用、重 agent 场景,这是好消息。对成本敏感的企业应用,它还需要过一遍真实任务账本。
接下来最该观察的,不是它还能不能再刷一个榜。
我会看三件事:GLM-5.2 能不能压低 reasoning token;1M 上下文在真实长文档任务里是否稳定;同样任务下,它和闭源模型的端到端成本差距到底有多大。
如果这三项继续改善,51 分才会从榜单成绩变成迁移理由。
如果 43k token 长期压不下来,它更像一个强但重的选择:适合难题,不适合所有题。
榜单上的 51 分很亮。真正决定它能走多远的,是那 43k token 能不能被压下来。
