GLM-5.1不只是更会写代码,它开始学会“熬项目”了

比“第一反应”更重要的,是能不能一直把活干下去
这两年大模型的发布节奏很像手机圈:跑分、榜单、参数、上下文窗口,热闹得很。但如果你真的拿这些模型去写代码、修 Bug、搭系统,很快就会发现一个残酷现实:很多模型第一下很惊艳,第二下还不错,第三下开始乱改,第四下就把项目带沟里去了。
智谱这次发布的 GLM-5.1,我觉得最值得看的并不是它在 SWE-Bench Pro 上拿到 58.4 分、超过前代 GLM-5 的 55.1,也不是它在 Terminal-Bench 2.0、CyberGym 这些更偏真实工具调用的任务上继续抬高分数线。真正有分量的,是它在产品定义里明确押注了一件事:让模型在“长周期任务”里持续有效,而不是只会做漂亮的第一稿。
这件事听起来朴素,实际上是今天 Agent 竞赛最关键的分水岭。因为软件工程从来不是一道一次性选择题,而是一个不断试错、反复验证、推翻重来的过程。人类程序员的价值,不只是会写一段代码,而是能在需求模糊、反馈稀少、上下文越来越乱的情况下继续往前拱。现在,GLM-5.1 想证明自己也能做这件事。
从 50 步到 600 轮:AI 终于不那么像“速成选手”了
官方给出的第一个例子很有代表性:优化一个向量数据库。这个任务的目标很明确,在 Recall 不低于 95% 的条件下,把 QPS 做高。以往这类评测通常给模型一个有限工具调用预算,比如 50 轮。很多模型会在这个窗口里尽快把常规优化招数全打出去,然后成绩就进入平台期,像一个考试型选手,前半小时奋笔疾书,后半小时开始发呆。
GLM-5.1 的表现有点不一样。智谱把它放进一个外层优化循环里,让它自己决定什么时候提交版本、什么时候继续试验。结果它在 600 多轮迭代、6000 多次工具调用后,把 QPS 做到了 2.15 万,差不多是此前单次 50 轮成绩纪录的 6 倍。更重要的是,这个提升不是靠盲目蛮干堆出来的,而是呈现出一种很像工程师的“阶梯式进化”:先做局部调参,再在某个时刻意识到当前路线快挖空了,换一套结构性方案,性能就跳一个台阶。
这很像真实的软件开发。很多优化不是把一个参数从 0.7 调到 0.73,而是某天晚上你突然意识到:方向错了,应该从全量扫描切到聚类检索;或者改成两阶段流水线,把粗筛和精排拆开。官方披露的几次关键转折——比如从 full scan 切换到 IVF cluster probing,再到引入 u8 预打分和 f16 rerank——都说明模型不只是机械执行指令,而是在看结果、找瓶颈、重写策略。
说白了,它开始有一点“会复盘”的味道了。这是比会背 API 更稀缺的能力。
真正难的,不是会写代码,而是会在混乱里保持清醒
第二个场景是 GPU kernel 优化,也就是把 PyTorch 参考实现改写成更快、输出还得一致的 CUDA 级优化方案。这类任务比普通 CRUD 难得多,因为它同时考验底层系统理解、性能分析、正确性约束和工具链熟练度。很多模型一开始提升很快,但跑到后面就像体力透支,能想到的招数都用过了,却还跳不出局部最优。
GLM-5.1 在 KernelBench Level 3 上最终做到 3.6 倍加速,明显强于 GLM-5,而且在较长的工具使用过程中仍然能继续推进。当然,最强的依然是 Claude Opus 4.6,跑到 4.2 倍,说明智谱这次确实前进了,但还没拿下全部高地。这个差距反而让这次发布显得更可信:它不是那种“全榜第一、全面碾压”的营销口径,而是清楚地告诉外界,自己最有进展的地方在哪里,短板又还剩多少。
这也对应了一个越来越清晰的行业现实:今天的大模型竞争,已经不是单纯比谁“更聪明”,而是比谁更像一个靠谱的协作对象。一个真正可用的编程 Agent,要能拆解问题、调用工具、读日志、看 benchmark、修自己引入的 bug,还得记住自己前面试过什么。这里面任何一项单拿出来都不算新鲜,但把它们在几百轮、上千轮交互里维持住,难度就陡然上升。
从这个意义上看,GLM-5.1 的意义不只是刷新分数,而是提醒行业:Agent 时代的评测方式也该升级了。过去那种“一次作答、立刻打分”的范式,越来越难反映真实生产力。未来更重要的问题会变成:它能不能在 8 小时后交出一个更像样的版本?它会不会在第 200 轮之后开始自我污染?它有没有能力承认“我这条路走歪了”?
一个8小时做出来的“Linux桌面”,暴露了AI开发的新野心
三个案例里,我个人最喜欢的是第三个:让模型从零开始做一个 Linux 风格的网页桌面环境。这个任务没有统一评分标准,没有 benchmark 曲线,也没有一个明确的“做到多少分就算好”的终点。你只能边做边判断:哪里还简陋,哪里交互不顺,哪里风格不统一。
这恰恰是现实世界里最常见、也最让 AI 难受的任务。因为没有标准答案,模型最容易在做出一个像模像样的壳子后宣布胜利。静态任务栏、两个占位窗口、再加一点看起来很忙的 CSS,很多系统到这里就会心满意足地收工。
GLM-5.1 在一个简单的自反思循环里跑了 8 小时,最后做出来的是一个更完整的浏览器内桌面:文件浏览器、终端、文本编辑器、系统监视器、计算器、小游戏,功能逐渐补全,界面也更统一。这个演示当然仍然带有“showcase”的成分,但它指向了一件比 demo 本身更重要的事:AI 软件开发开始从“一次性生成页面”转向“持续演化产品”。
这背后的商业意味很重。过去大家谈 AI 编程,多半是在说 Copilot 式的补全,或者让模型帮你写个函数、改个报错。现在各家真正争夺的是另一个位置——谁能成为你项目里的常驻工程师,哪怕是个初级但不知疲倦的工程师。这个角色如果真站稳,对外包、低端开发、测试、运维乃至产品原型设计都会产生连锁影响。
不过也别急着把“AI 独立开发”吹成明天就到来的现实。没有客观指标的任务,模型的自我评估仍然很不可靠。它可能误把花哨动画当成功能完善,也可能在一堆边缘细节上过度用力,却忽视了架构层面的隐患。能持续做事,不等于总在做对的事;会反思,也不代表反思一定准确。
开源、兼容 Claude Code,智谱这步棋不只是技术发布
从产业视角看,GLM-5.1 还有两层值得注意。第一,它采用 MIT License 开源,权重公开,可在 HuggingFace 和 ModelScope 获取,也支持本地部署到 vLLM、SGLang 等推理框架。这意味着它不是一个只能在云上“远观”的能力展示,而是想真正进入开发者工具链。
第二,它明确拥抱现有 Agent 生态,直接兼容 Claude Code、OpenClaw,以及一系列 coding agent 工具。这说明智谱已经不满足于“我有个模型”,而是在争一个更现实的位置:成为开发者在现成工作流里可替换、可调用、可比较的底座。说得直白一点,今天做模型的公司如果还停留在自家网页聊天框里,基本就错过主战场了。真正的战场在终端、IDE、CI/CD 流程、远程服务器和自动化脚本里。
这里也能看出国产模型竞争的变化。过去大家比的是通用问答、中文能力、价格和上下文长度;现在慢慢转向更硬的工程任务和工具使用能力。这是好事,因为它离真实生产更近,也更不容易靠“提示词装修”拿高分。但它也让竞争更残酷:代码和系统任务的指标更透明,开发者试几次就知道你到底是不是“样子货”。
如果把 GLM-5.1 放到整个行业坐标里看,它像是 Agent 编程赛道的一次扎实追赶。它没有把所有对手甩开,尤其在某些高难内核优化和复杂代理任务上,Claude、GPT、Gemini 仍各有优势。但智谱这次抓住了一个很对的方向:让模型从“会答”走向“会干”,再从“能干一会儿”走向“能干很久”。这条路比单纯堆榜单更难,也更接近未来。