AI 已经会“照着功能抄软件”了，但真正更麻烦的是它开始自己上网做事

核心摘要 Summary

本周几项分散的 AI 研究，其实指向同一件事：模型的能力边界正在从“会写代码”推进到“能独立完成几周级任务”。
我对这波进展的判断是，编码自动化比很多人预想得更近，但比能力增长更快暴露出来的，是代理型 AI 的安全和治理缺口。
政策讨论也在升温，不过眼下最现实的问题不是“AI 会不会接管一切”，而是企业和开发者已经要开始重写工作流和风控规则了。

AI 研究员 Jack Clark 最新一期《Import AI》看似在串几条零散消息：一个叫 MirrorCode 的代码基准、Google DeepMind 关于代理攻击的新论文、几位预测者把 AI 自动化研发的时间表再次提前。但把这些内容放在一起看，信息很直接：AI 已经不只是帮你补全代码，而是在进入“给它目标，它自己拆解、验证、重做一整套系统”的阶段。

我更在意的，不是又一个“模型更强了”的结论，而是能力和防护正在明显失衡。今天最值得警惕的不是聊天机器人胡说八道，而是能调用工具、读取网页、执行任务的代理，开始在一个并不为它们设计的互联网里活动。这会比很多公司想象得更难管。

MirrorCode 说明了一件事：AI 已能吃下部分周级开发任务

MirrorCode 由 METR 和 Epoch AI 提出，测试方法很刁钻：不给模型源代码，只给一个 CLI 程序的可执行版本和部分可见测试集，让 AI 重新实现同样功能。基准里有 20 多个目标程序，覆盖 Unix 工具、解释器、静态分析、加密和压缩等场景。结果里最抓眼球的一项，是 Claude Opus 4.6 成功重写了一个约 1.6 万行 Go 代码、包含 40 多个命令的生物信息学工具 gotree。研究者估计，人类工程师单独做这件事可能要 2 到 17 周。

这件事真正重要的地方，在于它验证了“长时程软件任务”不再只是演示视频里的概念。过去一年，行业常用的评测还是 SWE-bench 这类 bug 修复题，模型做的是局部补丁；MirrorCode 测的是在没有源码的情况下，靠行为观察和反复试错去复刻系统。它离真实业务仍有距离，但已经比 LeetCode 或单文件编程题更接近企业里的工程劳动。

不过，MirrorCode 也没有一些转发帖说得那么夸张。它更像“功能镜像”而不是“原创开发”：任务天然适合通过测试驱动逼近答案，目标程序输出也容易形成规格说明；基础程序还可能存在训练记忆；更关键的是，它不考产品定义、跨团队协作、需求变化、上线责任。这些恰恰是企业软件里最耗人的部分。换句话说，AI 已经逼近高级外包工程师，但还远不是能替代整个研发组织。

真正棘手的不是写代码，而是代理开始在开放环境里行动

Google DeepMind 那篇《AI Agent Traps》把针对代理型 AI 的攻击分成六类：内容注入、语义操纵、记忆与学习污染、行为控制、系统性攻击，以及对“人类监督者”的影响。这里最现实的风险并不抽象。比如网页可以在 CSS、HTML 元数据里塞进只给代理看的指令；文档库里可以混入未来才会触发的恶意信息；攻击者还可以诱导代理去检索、编码并外传敏感数据。

这和传统模型安全不是一回事。聊天机器人主要担心回答违规，代理型 AI 则要面对一个主动对抗的外部世界。你可以把它理解为，从“防模型说错话”升级到“防模型被人牵着做错事”。这个变化会逼着企业从单点模型治理，转向整条任务链治理：输入过滤、权限分层、执行审计、回滚机制，缺一项都危险。

议题	传统聊天模型	代理型 AI
主要风险	输出失准、违规回答	被诱导执行错误动作
攻击入口	提示词、对话内容	网页、工具、记忆库、子代理
防护重点	内容审核、对齐训练	权限控制、运行时监控、环境隔离
责任边界	平台为主	平台、企业用户、网站与工具方共同承担

这一点对企业客户尤其现实。如果你是把 AI 接进工单系统、采购流程、客服后台的团队，接下来最麻烦的不是模型订阅费，而是内部控制改造：哪些系统允许代理写入、哪些操作必须二次确认、日志保留多久、谁来担责。很多 PoC 项目会卡在这里，而不是卡在模型效果。

时间表又被提前了，行业可能还在低估自动化速度

AI 研究员 Ryan Greenblatt 最近把“到 2028 年底实现 AI 研发全自动化”的概率判断，从 15% 提高到 30%。他给出的理由很具体：Opus 4.5、4.6 和 Codex 5.x 系列表现持续超预期，尤其是在“容易验证”的大任务上，模型可以自己生成测试集、反复优化，哪怕中间犯错，反馈回路也能把它拉回来。这种任务在软件开发里很多。

这和 MirrorCode 的信号是连起来的。过去行业里常有人把 AI 编程能力的进步理解为界面更顺手、补全更聪明，但真正改变时间表的，是模型开始处理“可验证、可迭代、耗时长”的任务。Ajeya Cotra、AI 2027 团队近几个月也都把时间线往前调。我的判断是，市场对 AI 自动化编程的争论，焦点已经不该停留在“能不能写”，而该转到“哪些流程最先被拿下”。

比较现实的排序大概是这样的：

最先被压缩的是测试驱动型开发
然后是内部工具、迁移和重构
最难自动化的仍是模糊需求和跨团队协调
安全、合规、责任追踪会成为新瓶颈

历史上，GitHub Copilot 在 2021 年第一次让“AI 写代码”进入主流视野，随后 Cursor、Devin、OpenAI Codex 一路把场景从补全推进到代理执行。MirrorCode 的意义，在于它给“周级任务自动化”补了一块硬证据。它不代表 AGI，但足够让工程管理、外包采购和初级岗位培养方式发生变化。

政策讨论开始补课，但还没有跟上部署速度

Jack Clark 文中还提到 Windfall Trust 发布的“Windfall Policy Atlas”，把 48 项应对变革型 AI 的政策工具分成劳动适配、财富捕获、公共投资、监管设计和全球协调几类。这个工具本身不新鲜，真正有用的是它提醒人们：AI 冲击不只发生在实验室，还会进入工时、培训、税制和福利系统。

原文最后谈“渐进式失权”——人类不是被机器突然取代，而是在方便、便宜、效率更高的诱惑下，逐步把判断和行动权外包出去。这个说法听上去有点哲学，但放回现实并不空。客服、运营、基础研发、内容审核这些岗位，未来几年最可能经历的不是瞬间消失，而是职责被拆碎：人保留签字和背责，机器承担检索、起草、执行和大部分重复判断。收入结构、晋升路径和培训模型都会跟着变。

这也是我认为这组新闻里最容易被忽略的一点：问题不只是“AI 多强”，而是组织会不会为了省钱和提速，过早把关键决策权交给并不稳的代理。如果历史参照要找一个，更像早年企业仓促上云或把推荐算法直接接进业务 KPI——技术先落地，治理和责任隔一段时间才补上，代价通常由一线员工和用户先承担。

AI 已经会“照着功能抄软件”了，但真正更麻烦的是它开始自己上网做事

AI能力与治理失衡

编码自动化提速

MirrorCode基准

自动化流程预测

研发时间表提前

代理型风险升级

攻击面扩大

防护模式重构

企业内控改造

组织与政策滞后

渐进式失权

岗位结构拆解

政策工具补课

MirrorCode 说明了一件事：AI 已能吃下部分周级开发任务

真正棘手的不是写代码，而是代理开始在开放环境里行动

时间表又被提前了，行业可能还在低估自动化速度

政策讨论开始补课，但还没有跟上部署速度