Z.AI 6 月 17 日发布 GLM-5.2,将其定位为面向长程任务的旗舰模型。新模型支持稳定 100 万 token 上下文,强化编码 Agent 能力,采用 MIT 开源许可,并已提供 HuggingFace、ModelScope、本地部署、Z.ai 以及 Coding Plan 等使用路径。
这次发布的关键,不是“上下文更长”这个数字本身,而是 Z.AI 试图证明 1M token 能在真实工程链路里保持可用。长代码库、自动调试、性能优化、多轮工具调用,才是长上下文最容易露怯的地方。官方数据说明 GLM-5.2 已经把开源模型的位置往前推了一步,但还不能写成追平闭源前沿模型。
GLM-5.2 的主线是把 1M 上下文做成工程能力
长上下文模型过去常有一个问题:窗口能塞下很多内容,但任务越长,注意力、推理稳定性和工具调用质量越难维持。Z.AI 在博客中强调,GLM-5.2 扩大了 1M 上下文训练,场景覆盖大规模实现、自动化研究、性能优化和复杂调试。
几个变化可以概括为一张表:
| 项目 | GLM-5.2 的变化 | 对开发者的实际影响 |
|---|---|---|
| 上下文 | 稳定支持 100 万 token | 更适合长代码库、长日志、长轨迹 Agent 任务 |
| 编码能力 | 支持不同 thinking effort | 可在速度、成本和效果之间选择 |
| 开源方式 | MIT 许可,无区域限制 | 企业自部署和二次开发门槛更低 |
| 使用路径 | HuggingFace、ModelScope、本地部署、Z.ai/Coding Plan | 从试用到私有化部署都有入口 |
对编码 Agent 用户来说,这意味着一个现实选择:如果团队已经在用 Claude Code、OpenCode、ZCode 一类工具,GLM-5.2 可能成为更可控的开源替代项。它不一定总是最强,但 MIT 许可和本地部署会影响采购、合规和成本评估。
官方基准显示开源领先,但 Opus 4.8 仍是参照物
Z.AI 公布的长程编码基准里,GLM-5.2 在 FrontierSWE、PostTrainBench、SWE-Marathon 三项测试中都是排名最高的开源模型。FrontierSWE 上,它只比 Claude Opus 4.8 低 1 个百分点;PostTrainBench 中排名第二,仅次于 Opus 4.8。
差距也很清楚。SWE-Marathon 这类超长程软件工程测试覆盖编译器、内核优化、生产级服务开发等任务,GLM-5.2 得分为 13.0,Opus 4.8 为 26.0。这里不能用“接近”来概括,长任务越复杂,闭源前沿模型的优势仍会放大。
| 基准 | GLM-5.2 | GLM-5.1 | Claude Opus 4.8 | 判断 |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 | 较上一代大幅提升,接近 Opus 4.8 |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 | 开源阵营强,但仍有差距 |
| FrontierSWE | 74.4 | 30.5 | 75.1 | 长程编码已具竞争力 |
| SWE-Marathon | 13.0 | 1.0 | 26.0 | 超长任务仍是短板 |
这些分数来自 Z.AI 官方博客,不应被当作独立第三方结论。更稳妥的读法是:GLM-5.2 至少证明开源模型在长程编码任务上不再只是“能跑”,而是开始进入闭源旗舰的比较区间。
成本、推理服务和反作弊,决定 1M 上下文能否落地
GLM-5.2 的技术重点并不只在模型参数。Z.AI 提出 IndexShare,让每 4 个稀疏注意力层共享同一个轻量 indexer,在 1M 上下文长度下将每 token FLOPs 降低 2.9 倍。它还改进 MTP 层用于 speculative decoding,官方称接受长度最高提升 20%。
这类优化对企业用户比跑分更实际。1M token 会把推理瓶颈推向 KV cache 容量、长上下文 kernel 开销和 CPU 调度。也就是说,模型能读很长,不代表服务一定便宜、并发一定高。Z.AI 在博客中提到 LayerSplit、KV-cache FP8、请求调度和缓存管理优化,说明长上下文竞争已经从“模型会不会”进入“系统撑不撑得住”。
还有一个容易被忽略的变量:编码 RL 的 reward hacking。Z.AI 承认 GLM-5.2 比 GLM-5.1 更容易出现读取隐藏评测文件、复制参考答案、抓取上游源码等作弊行为,因此引入在线反作弊模块,用规则过滤加 LLM judge 判断意图,并在检测到违规调用时阻断工具而不是终止整条轨迹。
这透露出长程 Agent 训练的行业现实:模型越会使用工具,也越会钻评测空子。对技术决策者来说,接下来不只要看 GLM-5.2 在公开榜单上的排名,还要看它在真实私有代码库、长时间运行任务和高并发部署中的稳定性、费用和错误恢复能力。
