GLM-5.2 能进工具箱，但还没到替代 Opus

核心摘要 Summary

TechStackups 用同一条 one-shot 提示，让 GLM-5.2 和 Claude Opus 4.8 从零写 raw WebGL 3D 平台游戏；Opus 用 33m30s 完成，GLM-5.2 用 1h10m40s。
GLM-5.2 成本只有 5.39 美元，约为 Opus 估算成本 21.92 美元的四分之一，但成品缺陷更基础。
我的判断：GLM-5.2 已经能进工具箱，尤其适合成本敏感和重视开放权重的团队；但在视觉自检、完成度和代理执行稳定性上，还没到替代 Opus 的位置。

内容导图 Mind Map

GLM 5.2选型

能进工具箱，难替Opus

测试结果

Opus更快，GLM更省

交付差距

GLM闭环缺陷更基础

成本差距

GLM约为Opus四分之一

核心分水岭

自检能力决定交付

视觉短板

文本模型看不见错

闭环优势

Opus返工风险更低

团队用法

双轨选型更现实

高价值交付

闭源旗舰继续留预算

批量任务

GLM适合低成本可控

后续变量

短板能否持续补齐

能力补强

Max thinking待验证

供应风险

开源权重更可控

TechStackups 做了一个很能戳痛点的测试：同一条 one-shot 提示，同一批素材，让 GLM-5.2 和 Claude Opus 4.8 从零写一个 3D 平台游戏。

难点不在“写个网页小游戏”。要求是 raw WebGL，不用 Three.js，不用游戏引擎，还要处理 GLB 解析、渲染、动画、碰撞、相机和浏览器运行。页面可以糊弄，游戏交付很难糊弄。跳不跳得过去、刺会不会死人、旗帜算不算胜利，都是硬账。

这次测试说明了什么

这不是总榜排名。单次 3D 游戏任务，不能推出“谁全面强于谁”。它更像一个高信息量样本：看模型在长任务 coding agent 场景里，能不能把东西做完。

项目	GLM-5.2	Claude Opus 4.8
运行方式	Pi / OpenRouter	Claude Code
用时	1h10m40s	33m30s
成本	5.39 美元	约 21.92 美元
模型属性	MIT 许可开源权重，1M context，文本-only	闭源，多模态
测试设置	High thinking，未用 Max thinking	extended thinking high

结果很直接。Opus 更快，也更像一次完整交付。GLM-5.2 更便宜，开放权重更有长期可控性。

成品差距也不绕。

GLM-5.2 做出了能跑的游戏，但基础问题不少：材质缺失，角色朝向和头部显示有 bug，尖刺不致死，到旗帜没有胜利条件。它不是完全失败，而是最后闭环没收住。

Opus 的问题偏边缘：coyote-time 过宽，角色能在平台边缘“站空气”；胜利触发距离过早。但材质、动画、控制、相机、胜利条件都更顺。

网上关于 GLM-5.2 的讨论里，有真实进步，也有炒作混杂。这个测试的价值不在给情绪加码，而在把一个现实问题摆出来：模型会写代码之后，下一关是会不会交付。

分水岭不是跑分，是能不能看见自己的错

我更在意自检。

Opus 是多模态，能看截图。它发现画面里有 debug 信息，删掉后再结束。GLM-5.2 是文本-only，看不了图，只能写脚本采样像素颜色：有绿色草地、棕色泥土、金色金币、红色旗帜，于是判断“差不多完成”。

但角色材质丢了。debug overlay 还在。它没看见。

这就是 coding agent 的硬分水岭。长任务不是把文件生成出来就结束。它还要验收自己的输出。前端、游戏、设计工具、数据可视化，尤其如此。

老话讲“知错能改”。放到 AI 编程里，顺序更冷：先看见错，再定位错，再修掉错。看不见，后面全免谈。

这件事有点像早期网页时代。会写 HTML 不等于会交付产品。真正拉开差距的，是浏览器兼容、视觉还原、交互细节和线上稳定性。今天换成 AI agent，也是同一套旧账。技术换皮，验收不变。

所以我不太买账那种简单说法：开源已经打穿闭源，或者闭源永远压着开源。都太省事。

GLM-5.2 的问题不是“不会写”。它已经会写很多东西。问题是当任务进入多文件、长链路、视觉反馈、交互闭环时，它还不够稳。Opus 贵，但贵在更少返工。

对开发者和团队，动作应该不一样

如果你是 AI 编程工具重度用户，这次测试给的信号很清楚：别把 GLM-5.2 当玩具，也别急着把 Opus 扔掉。

更现实的用法是分层。

你的任务	更合适的选择	原因
UI、游戏、可视化、强视觉验收	Opus	多模态自检更关键，返工成本高
批量脚本、后端胶水代码、低风险重构	GLM-5.2	成本低，可长时间跑
要一次交付给客户或上线环境	Opus 更稳	完成度和闭环更重要
需要可下载、可审计、可自部署	GLM-5.2	MIT 许可开源权重，可控性强

对技术负责人，动作更具体：采购别只看单次调用价格，也别只看榜单。要把任务拆开测。

视觉类、交互类、上线前验收类任务，继续给闭源旗舰模型留预算。GLM-5.2 可以进入内部工具链，用在成本敏感、数据边界更敏感、或需要长期可用性的环节。

如果团队正在做模型选型，我会建议延后“全面迁移”的决定，但可以开始做“双轨”。一条轨跑 Opus 这类闭源旗舰，负责高价值交付；一条轨跑 GLM-5.2，负责批量、可控、可审计的开发任务。

接下来最该看的不是新一轮口水战。看三件事就够了：GLM-5.2 在 Max thinking 下能补多少短板；开源权重模型什么时候补上稳定的视觉自检；同类长任务在多次重复测试里，失败率能不能降下来。

闭源 API 的结构性风险也不能装看不见。价格、速率、地区、功能、模型下线，都不由使用者控制。开源权重的好处很朴素：刀可能没那么锋利，但刀在你手里。

真正的选型从来不是信仰投票。天下熙熙，皆为利来。开发者最后买单的不是参数表，是少返工、少失控、少被供应商卡脖子。

GLM-5.2 已经能进严肃工具箱。但现在让它坐主驾，尤其是视觉和交互任务，还是早了点。

锐评 Commentary

GLM-5.2 贵在可控，Opus 强在闭环。便宜能进工具箱，能自检才配坐主驾。

GLM-5.2Claude Opus 4.8大语言模型评测代码生成WebGL3D 平台游戏开源权重Claude CodeOpenRouter代理稳定性