AI 写代码开始进入 agent loop：生产力工具，还是 token 无底洞？

核心摘要 Summary

Claude Code 创建者 Boris Cherny 在 Meta @Scale 上称，agent loop 是真的，重要性可能接近从手写代码到 agent 写代码的变化。
它最先适配代码场景，因为代码有测试、PR、回滚和审查机制；但它还不是被大规模商业验证的新范式。
工程团队现在要看的不是概念热度，而是 token 成本、停止条件、权限边界和人工审核能不能管住循环。

Claude Code 创建者 Boris Cherny 上周五在 Meta @Scale 会议上，被问到一个很直接的问题：loops 是下一轮炒作，还是来真的？

他的回答也很直接：loops are for real。

Cherny 还说，这件事的重要性，可能接近过去两年开发方式的变化：从人手写代码，到让 agent 写代码。现在再往前一步，是让一组 agent 长期在后台运行，甚至由一个 agent 提示另一个 agent 继续干活。

我更在意的不是“循环”这个词。循环和递归早就是编程里的基本功。新的地方在于，AI agent loop 把停止条件也变得不那么确定了：什么时候停、目标是否达成，可能不再只由一条硬规则决定，而是交给另一个子智能体判断。

这才是风险和机会都变大的地方。

agent loop 不是新概念，新在“后台不停干活”

传统 agent 更像一次性任务。你给它一个目标，比如修一个 bug、写一个测试、生成一个函数。它完成后停下来，人再检查结果。

agent loop 更像把任务挂到后台。它不是等人一次次下指令，而是持续寻找可改进的地方，执行、总结、判断，再进入下一轮。

差别大概在这里：

对比项	传统 agent 任务	agent loop
工作方式	接一个明确任务，完成后停止	长期后台运行，持续寻找下一步
停止条件	人设定，或任务完成	可能由子智能体判断目标是否达成
典型代码场景	修 bug、写测试、生成函数	架构清理、重复抽象合并、持续提交 PR
主要风险	单次结果不准	成本失控、目标漂移、审核压力上升

这不是全新的计算机科学发明。不要把它包装成“循环被重新发明”。

更准确的说法是：agentic AI 把老的循环思想，放进了一个更难控制的执行环境里。过去循环跑错了，通常看条件、看日志、看栈。现在 agent 跑偏了，你还要判断它是不是“以为自己在完成目标”。

对开发者来说，这会改变日常工作重心。人不只是写提示词、看输出，还要设计循环的边界：它能看哪些仓库、能改哪些文件、能不能自动开 PR、多久必须停一次。

代码库为什么最先适配：因为有护栏，也有脏活

Cherny 举的例子很典型：一个 agent 持续寻找代码架构改进，另一个 agent 寻找可以合并的重复抽象。它们像程序员一样提交 pull request。

这个例子不夸张。代码库里确实有很多“长期没人想做，但做了有收益”的活：重复逻辑合并、测试补齐、静态分析修复、文档更新、依赖小升级。

这些任务适合 agent loop，有两个原因。

一是代码有可验证性。测试能跑，diff 能看，PR 能审，回滚路径也相对清楚。比起让 agent 长期处理合同、财务或客户沟通，代码场景至少有几道工程护栏。

二是代码库一直在变。只要主干持续更新，新的重复抽象、新的架构债、新的测试缺口就会出现。agent loop 的“持续性”在这里有用武之地。

但这也解释了它的边界。

如果一个后台 agent 每天开出十几个 PR，工程团队未必更轻松。审查、测试、合并、回滚都要人兜底。写代码的疲劳可能会变成审核机器产物的疲劳。

对工程负责人来说，比较现实的动作不是马上让 agent 接管核心系统，而是划一个低风险试验区：

从测试补齐、重复代码合并、文档更新、静态分析修复开始。
限制 agent 只能开 PR，不能直接合并。
给每个 loop 设 token 预算、运行时长和仓库权限。
要求每轮循环输出“做了什么、为什么继续、下一步是什么”。

这类试点不性感，但能看清真问题：agent 到底是在减少维护成本，还是在制造新的审查队列。

真门槛是成本、漂移和谁来按停键

agent loop 最大的商业问题，是账。

持续循环会快速消耗 token，而且理论上没有天然支出上限。对卖模型调用的公司，这是收入。对使用方，这是预算风险。

所以采购和技术管理者不该只问“能不能跑”。更该问四件事：

要问的问题	为什么重要
单个 loop 有没有预算上限	防止 token 消耗变成黑洞
停止条件由谁判断	防止 agent 自以为目标还没完成而持续运行
权限能否细分到仓库、目录和操作	防止低风险任务越界到核心代码
PR 通过率、返工率、事故率能否统计	判断它是在提效，还是把成本转移给 reviewer

这里还有一个更细的问题：长时间运行的模型会迷路。

开发者社区里常见的 Ralph Loop，就是一种补丁式技巧。它会让模型总结已经完成的工作，再反问目标是否已经达成。这个方法不神秘，更像给长跑中的 agent 定期点名、核对路线。

它能缓解漂移，但不能消灭漂移。

这也是我不太买账的一点：如果一个 loop 的安全性高度依赖提示词自我提醒，那它还不能算稳定工程能力。它可以是好工具，但不该被当成无人值守的同事。

目前能确认的，是 Cherny 的说法代表一线开发者实践正在变化。还不能确认的，是 agent loop 已经被大规模商业验证。也不能把 Cherny 的个人实践，直接等同于 Anthropic 的官方产品路线或行业共识。

接下来最该看的，不是发布会上谁把 loop 讲得更漂亮，而是三组硬指标：模型调用成本能否降到可长期运行；企业工具能否提供预算、权限和停止策略；agent 提交的 PR 在真实团队里的通过率、返工率和事故率如何。

如果这些指标站不住，agent loop 就会变成一种昂贵的自动化幻觉。

如果这些指标站得住，它才可能从开发者玩具，变成工程团队能放进流程里的生产力工具。

回到开头那个问题：loops 是不是真的？

是真的。但“真”不等于已经好用，更不等于可以放心放开跑。循环本身不值钱，能被管住的循环才值钱。

AI 写代码开始进入 agent loop：生产力工具，还是 token 无底洞？

Agent Loop

核心变化

停止条件

任务形态

代码先行

可验证性

适配脏活

主要风险

Token 黑洞

审核转移

落地边界

权限收紧

硬指标

agent loop 不是新概念，新在“后台不停干活”

代码库为什么最先适配：因为有护栏，也有脏活

真门槛是成本、漂移和谁来按停键