Anthropic旗下研究机构Anthropic Institute发布文章称,Claude正在显著加速公司内部AI研发:截至2026年5月,Anthropic合入代码中超过80%由Claude编写;2026年二季度,工程师日均合入代码量约为2024年的8倍。公司同时强调,这些数据来自内部观察,代码行数也会高估真实生产率。

这篇文章的分量不在于又一次证明“AI能写代码”,而在于它把问题推到更敏感的位置:AI是否正从研发助手走向下一代模型研发的执行主体。Anthropic的答案很克制——还没有形成递归自我改进闭环,但这个技术情景可能比多数机构准备得更早到来。

Claude已接管更多执行环节,但人类仍在定方向

Anthropic把前沿模型研发拆成两类工作:工程和研究。工程包括写代码、搭基础设施、看训练流程;研究包括决定做什么实验、解释结果、选择下一步方向。

从披露数据看,Claude在“给定目标后完成任务”上进步最快。Claude Code在2025年2月以研究预览版推出后,内部代码贡献占比从低个位数快速上升。到2026年,模型能运行代码、修改文件、调度更长时间的任务。

环节Anthropic披露的变化更合理的解读
代码编写2026年5月合入代码超80%由Claude编写AI已成为工程产出主力,但不等同于质量和价值也占80%
工程吞吐2026年二季度工程师日均合入代码量约为2024年的8倍说明研发节奏加快,真实生产率增幅应低于代码行数
长任务能力外部长期任务能力约每4个月翻倍,Claude从数分钟级进展到12小时级任务代理式研发从补全代码走向持续执行
研究实验Mythos Preview在明确目标下把小模型训练代码加速约52倍强在执行和迭代,弱在判断什么问题最值得做

最关键的限制也在表中:Claude能很好地“做题”,但还不能稳定“出题”。Anthropic承认,在选择目标、判断优先级、决定研究方向上,Claude仍明显依赖人类。这正是递归自我改进还没发生的原因。

外部benchmark显示跃迁,内部数据仍不能当行业通用结论

外部评测给Anthropic的说法提供了背景。METR长期任务评测显示,AI可可靠完成任务的时长从约每7个月翻倍,加速到约每4个月翻倍。Anthropic称,Claude Opus 3在2024年3月可完成约4分钟人类任务,一年后Claude Sonnet 3.7达到约1.5小时,再一年后Claude Opus 4.6达到12小时。

SWE-bench和CORE-Bench也有类似趋势:前者考真实开源项目修bug,后者考复现实验研究结果。模型在这些测试上的得分快速逼近饱和,说明旧评测已经开始跟不上前沿模型能力。

但这里有两个边界不能抹掉。第一,Anthropic披露的是自身研发环境中的数据,不能直接推广到OpenAI、Google DeepMind、Meta或普通软件公司。第二,前沿实验室的代码库、工具链、审查流程和算力条件很特殊,Claude在Anthropic内部跑得快,不代表企业把GitHub Copilot、Cursor或Codex类工具接进来后就能复制同样效果。

对AI从业者来说,现实影响会更直接:团队会重新分配工程师时间,更多人从“亲手写实现”转向“定义目标、审查结果、设计评测”。对决策者来说,采购问题也会变成治理问题——买不买AI编程工具只是第一步,更难的是谁来批准模型提交的代码,谁对事故负责。

接下来要盯的不是代码占比,而是闭环是否出现

递归自我改进的真正门槛,不是Claude能不能写出下一段代码,而是它能否独立完成“发现问题—提出实验—训练模型—评估风险—决定发布”的整条链路。Anthropic原文没有声称Claude已经能自主训练并设计下一代Claude,反而把“closing the loop”放在20XX的未来情景里。

潜在收益很大。更快的AI研发可能压缩科学模拟、药物发现、医疗研究中的实验周期,也可能让小团队获得过去只有大实验室才有的工程能力。代价也同样清楚:当模型能参与构建自己的继任者,监控、安全测试和行为塑造会变得更难,尤其是评估速度若慢于模型能力提升,治理就会长期追在后面。

接下来最该观察三件事:AI生成代码导致的真实事故率是否下降;模型能否在开放研究中稳定提出高质量目标;安全评测是否能覆盖长时间、自主、多代理协作任务。若这些变量同时突破,AI研发自动化才会从“很强的工具”逼近“可能改写控制权结构的系统”。