AI 研究员 Jack Clark 最新一期《Import AI》看似在串几条零散消息:一个叫 MirrorCode 的代码基准、Google DeepMind 关于代理攻击的新论文、几位预测者把 AI 自动化研发的时间表再次提前。但把这些内容放在一起看,信息很直接:AI 已经不只是帮你补全代码,而是在进入“给它目标,它自己拆解、验证、重做一整套系统”的阶段。

我更在意的,不是又一个“模型更强了”的结论,而是能力和防护正在明显失衡。今天最值得警惕的不是聊天机器人胡说八道,而是能调用工具、读取网页、执行任务的代理,开始在一个并不为它们设计的互联网里活动。这会比很多公司想象得更难管。

MirrorCode 说明了一件事:AI 已能吃下部分周级开发任务

MirrorCode 由 METR 和 Epoch AI 提出,测试方法很刁钻:不给模型源代码,只给一个 CLI 程序的可执行版本和部分可见测试集,让 AI 重新实现同样功能。基准里有 20 多个目标程序,覆盖 Unix 工具、解释器、静态分析、加密和压缩等场景。结果里最抓眼球的一项,是 Claude Opus 4.6 成功重写了一个约 1.6 万行 Go 代码、包含 40 多个命令的生物信息学工具 gotree。研究者估计,人类工程师单独做这件事可能要 2 到 17 周。

这件事真正重要的地方,在于它验证了“长时程软件任务”不再只是演示视频里的概念。过去一年,行业常用的评测还是 SWE-bench 这类 bug 修复题,模型做的是局部补丁;MirrorCode 测的是在没有源码的情况下,靠行为观察和反复试错去复刻系统。它离真实业务仍有距离,但已经比 LeetCode 或单文件编程题更接近企业里的工程劳动。

不过,MirrorCode 也没有一些转发帖说得那么夸张。它更像“功能镜像”而不是“原创开发”:任务天然适合通过测试驱动逼近答案,目标程序输出也容易形成规格说明;基础程序还可能存在训练记忆;更关键的是,它不考产品定义、跨团队协作、需求变化、上线责任。这些恰恰是企业软件里最耗人的部分。换句话说,AI 已经逼近高级外包工程师,但还远不是能替代整个研发组织。

真正棘手的不是写代码,而是代理开始在开放环境里行动

Google DeepMind 那篇《AI Agent Traps》把针对代理型 AI 的攻击分成六类:内容注入、语义操纵、记忆与学习污染、行为控制、系统性攻击,以及对“人类监督者”的影响。这里最现实的风险并不抽象。比如网页可以在 CSS、HTML 元数据里塞进只给代理看的指令;文档库里可以混入未来才会触发的恶意信息;攻击者还可以诱导代理去检索、编码并外传敏感数据。

这和传统模型安全不是一回事。聊天机器人主要担心回答违规,代理型 AI 则要面对一个主动对抗的外部世界。你可以把它理解为,从“防模型说错话”升级到“防模型被人牵着做错事”。这个变化会逼着企业从单点模型治理,转向整条任务链治理:输入过滤、权限分层、执行审计、回滚机制,缺一项都危险。

议题传统聊天模型代理型 AI
主要风险输出失准、违规回答被诱导执行错误动作
攻击入口提示词、对话内容网页、工具、记忆库、子代理
防护重点内容审核、对齐训练权限控制、运行时监控、环境隔离
责任边界平台为主平台、企业用户、网站与工具方共同承担

这一点对企业客户尤其现实。如果你是把 AI 接进工单系统、采购流程、客服后台的团队,接下来最麻烦的不是模型订阅费,而是内部控制改造:哪些系统允许代理写入、哪些操作必须二次确认、日志保留多久、谁来担责。很多 PoC 项目会卡在这里,而不是卡在模型效果。

时间表又被提前了,行业可能还在低估自动化速度

AI 研究员 Ryan Greenblatt 最近把“到 2028 年底实现 AI 研发全自动化”的概率判断,从 15% 提高到 30%。他给出的理由很具体:Opus 4.5、4.6 和 Codex 5.x 系列表现持续超预期,尤其是在“容易验证”的大任务上,模型可以自己生成测试集、反复优化,哪怕中间犯错,反馈回路也能把它拉回来。这种任务在软件开发里很多。

这和 MirrorCode 的信号是连起来的。过去行业里常有人把 AI 编程能力的进步理解为界面更顺手、补全更聪明,但真正改变时间表的,是模型开始处理“可验证、可迭代、耗时长”的任务。Ajeya Cotra、AI 2027 团队近几个月也都把时间线往前调。我的判断是,市场对 AI 自动化编程的争论,焦点已经不该停留在“能不能写”,而该转到“哪些流程最先被拿下”。

比较现实的排序大概是这样的:

  • 最先被压缩的是测试驱动型开发
  • 然后是内部工具、迁移和重构
  • 最难自动化的仍是模糊需求和跨团队协调
  • 安全、合规、责任追踪会成为新瓶颈

历史上,GitHub Copilot 在 2021 年第一次让“AI 写代码”进入主流视野,随后 Cursor、Devin、OpenAI Codex 一路把场景从补全推进到代理执行。MirrorCode 的意义,在于它给“周级任务自动化”补了一块硬证据。它不代表 AGI,但足够让工程管理、外包采购和初级岗位培养方式发生变化。

政策讨论开始补课,但还没有跟上部署速度

Jack Clark 文中还提到 Windfall Trust 发布的“Windfall Policy Atlas”,把 48 项应对变革型 AI 的政策工具分成劳动适配、财富捕获、公共投资、监管设计和全球协调几类。这个工具本身不新鲜,真正有用的是它提醒人们:AI 冲击不只发生在实验室,还会进入工时、培训、税制和福利系统。

原文最后谈“渐进式失权”——人类不是被机器突然取代,而是在方便、便宜、效率更高的诱惑下,逐步把判断和行动权外包出去。这个说法听上去有点哲学,但放回现实并不空。客服、运营、基础研发、内容审核这些岗位,未来几年最可能经历的不是瞬间消失,而是职责被拆碎:人保留签字和背责,机器承担检索、起草、执行和大部分重复判断。收入结构、晋升路径和培训模型都会跟着变。

这也是我认为这组新闻里最容易被忽略的一点:问题不只是“AI 多强”,而是组织会不会为了省钱和提速,过早把关键决策权交给并不稳的代理。如果历史参照要找一个,更像早年企业仓促上云或把推荐算法直接接进业务 KPI——技术先落地,治理和责任隔一段时间才补上,代价通常由一线员工和用户先承担。