Claude Code 创建者 Boris Cherny 上周五在 Meta @Scale 会议上,被问到一个很直接的问题:loops 是下一轮炒作,还是来真的?

他的回答也很直接:loops are for real。

Cherny 还说,这件事的重要性,可能接近过去两年开发方式的变化:从人手写代码,到让 agent 写代码。现在再往前一步,是让一组 agent 长期在后台运行,甚至由一个 agent 提示另一个 agent 继续干活。

我更在意的不是“循环”这个词。循环和递归早就是编程里的基本功。新的地方在于,AI agent loop 把停止条件也变得不那么确定了:什么时候停、目标是否达成,可能不再只由一条硬规则决定,而是交给另一个子智能体判断。

这才是风险和机会都变大的地方。

agent loop 不是新概念,新在“后台不停干活”

传统 agent 更像一次性任务。你给它一个目标,比如修一个 bug、写一个测试、生成一个函数。它完成后停下来,人再检查结果。

agent loop 更像把任务挂到后台。它不是等人一次次下指令,而是持续寻找可改进的地方,执行、总结、判断,再进入下一轮。

差别大概在这里:

对比项传统 agent 任务agent loop
工作方式接一个明确任务,完成后停止长期后台运行,持续寻找下一步
停止条件人设定,或任务完成可能由子智能体判断目标是否达成
典型代码场景修 bug、写测试、生成函数架构清理、重复抽象合并、持续提交 PR
主要风险单次结果不准成本失控、目标漂移、审核压力上升

这不是全新的计算机科学发明。不要把它包装成“循环被重新发明”。

更准确的说法是:agentic AI 把老的循环思想,放进了一个更难控制的执行环境里。过去循环跑错了,通常看条件、看日志、看栈。现在 agent 跑偏了,你还要判断它是不是“以为自己在完成目标”。

对开发者来说,这会改变日常工作重心。人不只是写提示词、看输出,还要设计循环的边界:它能看哪些仓库、能改哪些文件、能不能自动开 PR、多久必须停一次。

代码库为什么最先适配:因为有护栏,也有脏活

Cherny 举的例子很典型:一个 agent 持续寻找代码架构改进,另一个 agent 寻找可以合并的重复抽象。它们像程序员一样提交 pull request。

这个例子不夸张。代码库里确实有很多“长期没人想做,但做了有收益”的活:重复逻辑合并、测试补齐、静态分析修复、文档更新、依赖小升级。

这些任务适合 agent loop,有两个原因。

一是代码有可验证性。测试能跑,diff 能看,PR 能审,回滚路径也相对清楚。比起让 agent 长期处理合同、财务或客户沟通,代码场景至少有几道工程护栏。

二是代码库一直在变。只要主干持续更新,新的重复抽象、新的架构债、新的测试缺口就会出现。agent loop 的“持续性”在这里有用武之地。

但这也解释了它的边界。

如果一个后台 agent 每天开出十几个 PR,工程团队未必更轻松。审查、测试、合并、回滚都要人兜底。写代码的疲劳可能会变成审核机器产物的疲劳。

对工程负责人来说,比较现实的动作不是马上让 agent 接管核心系统,而是划一个低风险试验区:

  • 从测试补齐、重复代码合并、文档更新、静态分析修复开始。
  • 限制 agent 只能开 PR,不能直接合并。
  • 给每个 loop 设 token 预算、运行时长和仓库权限。
  • 要求每轮循环输出“做了什么、为什么继续、下一步是什么”。

这类试点不性感,但能看清真问题:agent 到底是在减少维护成本,还是在制造新的审查队列。

真门槛是成本、漂移和谁来按停键

agent loop 最大的商业问题,是账。

持续循环会快速消耗 token,而且理论上没有天然支出上限。对卖模型调用的公司,这是收入。对使用方,这是预算风险。

所以采购和技术管理者不该只问“能不能跑”。更该问四件事:

要问的问题为什么重要
单个 loop 有没有预算上限防止 token 消耗变成黑洞
停止条件由谁判断防止 agent 自以为目标还没完成而持续运行
权限能否细分到仓库、目录和操作防止低风险任务越界到核心代码
PR 通过率、返工率、事故率能否统计判断它是在提效,还是把成本转移给 reviewer

这里还有一个更细的问题:长时间运行的模型会迷路。

开发者社区里常见的 Ralph Loop,就是一种补丁式技巧。它会让模型总结已经完成的工作,再反问目标是否已经达成。这个方法不神秘,更像给长跑中的 agent 定期点名、核对路线。

它能缓解漂移,但不能消灭漂移。

这也是我不太买账的一点:如果一个 loop 的安全性高度依赖提示词自我提醒,那它还不能算稳定工程能力。它可以是好工具,但不该被当成无人值守的同事。

目前能确认的,是 Cherny 的说法代表一线开发者实践正在变化。还不能确认的,是 agent loop 已经被大规模商业验证。也不能把 Cherny 的个人实践,直接等同于 Anthropic 的官方产品路线或行业共识。

接下来最该看的,不是发布会上谁把 loop 讲得更漂亮,而是三组硬指标:模型调用成本能否降到可长期运行;企业工具能否提供预算、权限和停止策略;agent 提交的 PR 在真实团队里的通过率、返工率和事故率如何。

如果这些指标站不住,agent loop 就会变成一种昂贵的自动化幻觉。

如果这些指标站得住,它才可能从开发者玩具,变成工程团队能放进流程里的生产力工具。

回到开头那个问题:loops 是不是真的?

是真的。但“真”不等于已经好用,更不等于可以放心放开跑。循环本身不值钱,能被管住的循环才值钱。