Jack Clark 在 5 月 4 日发布的 Import AI 455 中给出一个罕见明确的时间判断:到 2028 年底前,出现“无人参与、能自主构建自身继任者”的 AI R&D 系统,概率已超过 60%。他同时强调,自己不认为这会在 2026 年完整发生,但未来一到两年内,非前沿模型层面的端到端训练继任者 proof-of-concept 已经可能出现。

这篇文章真正重要的地方,不是押注某个模型突然开悟,而是把多条能力曲线放在一起看:代码生成、实验复现、模型微调、训练优化、科研代理和管理型 agent 正在接近一个闭环。它不重要的地方也要说清楚:60% 只是 Clark 的个人概率判断,不是行业验证过的结论,更不能被写成 AI 已经能独立训练下一代 GPT 级前沿模型。

Clark 的判断建立在“工程闭环”而非单点突破上

Clark 的核心论证是,今天 AI 研发的大量工作并不总是原创科学发现,而是由可验证、可拆解、可迭代的工程任务组成:写代码、跑实验、清洗数据、复现实验、调训练脚本、比较结果。过去两年,模型恰好在这些任务上进步最快。

项目早期表现最新表现说明
SWE-BenchClaude 2 约 2%Claude Mythos Preview 93.9%真实 GitHub issue 级编码能力接近基准饱和
METR 任务时长GPT-3.5 约 30 秒2026 年 Opus 4.6 约 12 小时AI 可独立推进更长任务链
CORE-Bench2024 年 GPT-4o scaffold 约 21.5%2025 年 Opus 4.5 95.5%论文仓库复现能力大幅提升
MLE-Bencho1 agent 16.9%Gemini3 agent 64.4%自动搭建机器学习方案的能力增强

这些数字不能简单等同于“自动科学家已经诞生”。但它们至少说明,AI 正从“写一段函数”变成“接一串任务”。这对模型公司尤其关键,因为研究人员日常耗时最多的部分,往往不是提出宏大方向,而是把想法变成可跑、可测、可比较的实验。

模型训练本身开始成为 AI 可优化对象

更敏感的证据来自模型研发环节。PostTrainBench 显示,AI 对小型开源模型做后训练时,已经能达到人类 uplift 大约一半的效果:顶级系统约 25%-28%,人类基线约 51%。这距离替代前沿实验室的后训练团队还远,但已经不是玩具任务。

Anthropic 的小模型训练优化任务更直接。Claude Opus 4 在 2025 年 5 月只能把 CPU-only 小语言模型训练实现加速 2.9 倍,Opus 4.5 到 16.5 倍,Opus 4.6 到 30 倍,Claude Mythos Preview 到 52 倍。作为参照,人类研究员通常要花 4 到 8 小时才能做到 4 倍加速。

这里的行业背景是,AI 公司现在的竞争不只在模型参数和算力,也在研发吞吐量。OpenAI、Anthropic、Google DeepMind、Meta 都在把 agent 工具接入内部工程流程。Claude Code、OpenCode 这类产品已经展示了一个趋势:一个主代理调度多个子代理,分头写代码、测试、修 bug。管理型 agent 一旦稳定,研发组织的瓶颈会从“谁会写”转向“谁能定义目标、验证结果、承担风险”。

最大变量不是跑分,而是前沿研发的真实成本和创造性

Clark 自己也给了重要限定:他的判断来自公开论文、benchmark 和产品观察拼出的趋势图,单个基准都有噪声。SWE-Bench、CORE-Bench 这类测试存在标签错误、题目泄漏、任务分布偏窄和饱和问题。能完成可验证工程任务,不等于已经具备原创科学发现能力。

更现实的限制是成本。非前沿模型可以用较低预算验证“模型训练继任者”概念;前沿模型则不同,训练一次可能涉及巨额 GPU 集群、数据治理、系统工程、对齐评估和安全审查。很多失败不会出现在 benchmark 分数里,只会出现在账单、排期和事故复盘里。

对 AI 研究负责人和工程负责人来说,短期动作不是解散团队,而是重排工作流:把复现、实验编排、训练脚本优化、评测报告交给 agent 试跑;把人力放到问题定义、结果审计和高风险决策上。接下来最该观察的不是某个榜单又涨了几分,而是有没有公开案例证明:一个 AI 系统能在无人干预下提出训练方案、执行实验、修正失败,并训练出性能更好的继任模型。