Simon Willison 最近公开了一次小改动:他让 Claude Code 帮自己给“博客转 newsletter”工具新增一种内容类型“beats”,结果几乎一次成功,直接产出了可合并的 GitHub PR。表面看,这只是一个个人网站工具的小修小补;实际上,它把 2026 年 AI 编程代理最有现实价值的一点讲明白了:好用的不是“会写代码的模型”,而是“能读上下文、会自测、知道拿什么做参照的代理”。
这件事重要,因为它不是那种靠演示视频制造惊艳感的案例。Willison 给出的任务很朴素:修改 blog-to-newsletter.html,让工具像博客的 Atom feed 一样,只收录带说明文字的 beats。结果 AI 不光改了 SQL,还从他另一个 Django 博客代码库里读出模型定义,顺手补上了 beat 类型到展示名称的映射。对于开发团队,这比“模型能不能一把生成应用”更有参考价值——它更像真实工作,而不是舞台 demo。
一次成功的关键,不在提示词短,而在约束足够具体
Willison 的提示词看起来很短,但里面其实塞了三层关键信息:参考代码库、修改目标、验证办法。他先让 Claude Code 把 simonw/simonwillisonblog 克隆到 /tmp,相当于明确告诉代理:去读我现有系统怎么定义 beats,但别把参考仓库混进提交里。这个动作很小,却切中了今天很多 AI 编程失败的原因——模型并不是不够聪明,而是缺少“真实系统长什么样”的上下文。
更关键的是验证环节。他要求代理用 python -m http.server 跑起来,再用浏览器自动化工具 uvx rodney --help 测试,并把 newsletter 结果与博客首页 simonwillison.net 对照。这里的核心判断是:AI 编程开始从“生成代码”转向“执行一个可验证的软件维护流程”。谁能把流程说清,谁就更容易得到靠谱结果。
最终 PR 的核心改动,是在 SQL 查询里新增一段UNION ALL,只选取note非空、且is_draft = 0的 beat 记录。
这比 Cursor 式补全更进一步,但门槛也更高
过去两年,Copilot、Cursor、Codeium 这类工具已经把“边写边补全”做成了开发者日常。Willison 这次案例代表的是另一条线:不是帮你补代码,而是让代理自己去看仓库、理解另一套系统、运行页面、再做人工测试替代。它更接近 Claude Code、Devin、OpenHands 想证明的方向。
| 工具形态 | 典型代表 | 擅长场景 | 主要限制 |
|---|---|---|---|
| 代码补全型 | GitHub Copilot、Codeium | 局部函数、即时建议 | 上下文浅,跨仓库理解弱 |
| IDE 代理型 | Cursor、Windsurf | 重构、批量改文件 | 验证能力依赖本地环境 |
| 任务代理型 | Claude Code、Devin、OpenHands | 读仓库、跑命令、提 PR | 成本更高,失控风险更大 |
Willison 的案例说明,任务代理在“小而真”的维护工作里已经能拿出不错成绩。特别是那种逻辑已经存在于别处、只是需要迁移或复用的改动,代理成功率会高很多。反过来说,这并不代表 AI 已经能稳定承担从 0 到 1 的架构设计;它更像一个很能干的初中级工程师,前提是你给了它现成样板和检查标准。
对开发者最现实的影响,是工作内容开始偏向“编排”
如果你是独立开发者,这类工具最直接的变化是:很多过去懒得做的小维护,现在更容易做了。比如同步不同渠道的内容格式、补后台脚本、改数据查询、统一展示逻辑。这些工作往往不难,但碎、烦、上下文多,人容易拖。AI 代理恰好适合处理这类“边角料工程”。
如果你在企业团队,变化会更现实一些:
- 提需求的人要学会给验证标准
- 工程师要维护更清晰的仓库边界
- 文档和测试会变得更有生产价值
- 代码评审不会消失,只会更重要
这里有一个原文没展开、但很关键的现实约束:Willison 本人维护的是一套非常清楚的个人系统。他有公开仓库、有可访问的 Datasette 实例、有稳定的数据结构,还有博客首页和 Atom feed 这种天然“对照组”。很多企业内部项目没有这么干净——权限、依赖、遗留系统、测试缺失,都会让代理的表现迅速下滑。所以,不是每个团队都能复制这个效果,至少不是立刻。
这件事真正不重要的部分,是“AI 又写出一段 SQL”
单看技术动作,这次改动不复杂:新增一段查询、过滤草稿和空注释、补几种 beat 类型的展示名。把它包装成“AI 具备高级工程能力”其实有点过头。真正的价值不在代码量,而在过程设计:用一个仓库解释另一个仓库,用线上页面做验收,用自动化浏览器替代口头确认。
这也是我对当前 agentic engineering 的判断:它已经进入实用阶段,但仍然强依赖人的系统设计能力。公开说法通常强调“代理越来越自主”,行业现实却是,自主只在边界清楚时才成立。一旦缺少测试、参照实现、数据样本,代理往往会退回到熟悉的幻觉和猜测。
Willison 这篇文章最大的编辑价值,是把一个容易被神化的话题拉回了工程常识:别迷信万能提示词,先准备好让代理能成功的土壤。对真正写软件的人来说,这比任何一次炫技演示都更实用。
