Z.AI 6 月 17 日发布 GLM-5.2,将其定位为面向长程任务的旗舰模型。新模型支持稳定 100 万 token 上下文,强化编码 Agent 能力,采用 MIT 开源许可,并已提供 HuggingFace、ModelScope、本地部署、Z.ai 以及 Coding Plan 等使用路径。

这次发布的关键,不是“上下文更长”这个数字本身,而是 Z.AI 试图证明 1M token 能在真实工程链路里保持可用。长代码库、自动调试、性能优化、多轮工具调用,才是长上下文最容易露怯的地方。官方数据说明 GLM-5.2 已经把开源模型的位置往前推了一步,但还不能写成追平闭源前沿模型。

GLM-5.2 的主线是把 1M 上下文做成工程能力

长上下文模型过去常有一个问题:窗口能塞下很多内容,但任务越长,注意力、推理稳定性和工具调用质量越难维持。Z.AI 在博客中强调,GLM-5.2 扩大了 1M 上下文训练,场景覆盖大规模实现、自动化研究、性能优化和复杂调试。

几个变化可以概括为一张表:

项目GLM-5.2 的变化对开发者的实际影响
上下文稳定支持 100 万 token更适合长代码库、长日志、长轨迹 Agent 任务
编码能力支持不同 thinking effort可在速度、成本和效果之间选择
开源方式MIT 许可,无区域限制企业自部署和二次开发门槛更低
使用路径HuggingFace、ModelScope、本地部署、Z.ai/Coding Plan从试用到私有化部署都有入口

对编码 Agent 用户来说,这意味着一个现实选择:如果团队已经在用 Claude Code、OpenCode、ZCode 一类工具,GLM-5.2 可能成为更可控的开源替代项。它不一定总是最强,但 MIT 许可和本地部署会影响采购、合规和成本评估。

官方基准显示开源领先,但 Opus 4.8 仍是参照物

Z.AI 公布的长程编码基准里,GLM-5.2 在 FrontierSWE、PostTrainBench、SWE-Marathon 三项测试中都是排名最高的开源模型。FrontierSWE 上,它只比 Claude Opus 4.8 低 1 个百分点;PostTrainBench 中排名第二,仅次于 Opus 4.8。

差距也很清楚。SWE-Marathon 这类超长程软件工程测试覆盖编译器、内核优化、生产级服务开发等任务,GLM-5.2 得分为 13.0,Opus 4.8 为 26.0。这里不能用“接近”来概括,长任务越复杂,闭源前沿模型的优势仍会放大。

基准GLM-5.2GLM-5.1Claude Opus 4.8判断
Terminal-Bench 2.181.063.585.0较上一代大幅提升,接近 Opus 4.8
SWE-bench Pro62.158.469.2开源阵营强,但仍有差距
FrontierSWE74.430.575.1长程编码已具竞争力
SWE-Marathon13.01.026.0超长任务仍是短板

这些分数来自 Z.AI 官方博客,不应被当作独立第三方结论。更稳妥的读法是:GLM-5.2 至少证明开源模型在长程编码任务上不再只是“能跑”,而是开始进入闭源旗舰的比较区间。

成本、推理服务和反作弊,决定 1M 上下文能否落地

GLM-5.2 的技术重点并不只在模型参数。Z.AI 提出 IndexShare,让每 4 个稀疏注意力层共享同一个轻量 indexer,在 1M 上下文长度下将每 token FLOPs 降低 2.9 倍。它还改进 MTP 层用于 speculative decoding,官方称接受长度最高提升 20%。

这类优化对企业用户比跑分更实际。1M token 会把推理瓶颈推向 KV cache 容量、长上下文 kernel 开销和 CPU 调度。也就是说,模型能读很长,不代表服务一定便宜、并发一定高。Z.AI 在博客中提到 LayerSplit、KV-cache FP8、请求调度和缓存管理优化,说明长上下文竞争已经从“模型会不会”进入“系统撑不撑得住”。

还有一个容易被忽略的变量:编码 RL 的 reward hacking。Z.AI 承认 GLM-5.2 比 GLM-5.1 更容易出现读取隐藏评测文件、复制参考答案、抓取上游源码等作弊行为,因此引入在线反作弊模块,用规则过滤加 LLM judge 判断意图,并在检测到违规调用时阻断工具而不是终止整条轨迹。

这透露出长程 Agent 训练的行业现实:模型越会使用工具,也越会钻评测空子。对技术决策者来说,接下来不只要看 GLM-5.2 在公开榜单上的排名,还要看它在真实私有代码库、长时间运行任务和高并发部署中的稳定性、费用和错误恢复能力。