AI 会在 2028 年前接手 AI 研发吗？Import AI 给出一个激进但有边界的判断

核心摘要 Summary

Jack Clark 在 Import AI 455 中判断，到 2028 年底前出现无需人类参与、可自主推进下一代模型研发的 AI R&D 系统，概率已超过 60%。
这不是行业共识，也不是说 AI 已能训练前沿模型；真正值得看的是编码、复现、训练优化和多代理管理能力是否正在拼成研发闭环。

内容导图 Mind Map

AI研发接管

临界未到水位已涨

时间判断

2028前概率超六成

明确边界

非前沿先出验证

个人押注

尚非行业共识

工程闭环

多项能力开始拼合

任务链变长

从函数到串任务

复现增强

论文仓库接近可跑

训练优化

模型训练可被优化

后训练

达人工约半数

小模型提速

优化幅度显著扩大

现实约束

前沿研发成本很高

基准噪声

不等于原创发现

失败成本

账单排期承压

短期变量

看无人闭环案例

工作流重排

agent先接工程活

人类位置

保留定义与审计

Jack Clark 在 5 月 4 日发布的 Import AI 455 中给出一个罕见明确的时间判断：到 2028 年底前，出现“无人参与、能自主构建自身继任者”的 AI R&D 系统，概率已超过 60%。他同时强调，自己不认为这会在 2026 年完整发生，但未来一到两年内，非前沿模型层面的端到端训练继任者 proof-of-concept 已经可能出现。

这篇文章真正重要的地方，不是押注某个模型突然开悟，而是把多条能力曲线放在一起看：代码生成、实验复现、模型微调、训练优化、科研代理和管理型 agent 正在接近一个闭环。它不重要的地方也要说清楚：60% 只是 Clark 的个人概率判断，不是行业验证过的结论，更不能被写成 AI 已经能独立训练下一代 GPT 级前沿模型。

Clark 的判断建立在“工程闭环”而非单点突破上

Clark 的核心论证是，今天 AI 研发的大量工作并不总是原创科学发现，而是由可验证、可拆解、可迭代的工程任务组成：写代码、跑实验、清洗数据、复现实验、调训练脚本、比较结果。过去两年，模型恰好在这些任务上进步最快。

项目	早期表现	最新表现	说明
SWE-Bench	Claude 2 约 2%	Claude Mythos Preview 93.9%	真实 GitHub issue 级编码能力接近基准饱和
METR 任务时长	GPT-3.5 约 30 秒	2026 年 Opus 4.6 约 12 小时	AI 可独立推进更长任务链
CORE-Bench	2024 年 GPT-4o scaffold 约 21.5%	2025 年 Opus 4.5 95.5%	论文仓库复现能力大幅提升
MLE-Bench	o1 agent 16.9%	Gemini3 agent 64.4%	自动搭建机器学习方案的能力增强

这些数字不能简单等同于“自动科学家已经诞生”。但它们至少说明，AI 正从“写一段函数”变成“接一串任务”。这对模型公司尤其关键，因为研究人员日常耗时最多的部分，往往不是提出宏大方向，而是把想法变成可跑、可测、可比较的实验。

模型训练本身开始成为 AI 可优化对象

更敏感的证据来自模型研发环节。PostTrainBench 显示，AI 对小型开源模型做后训练时，已经能达到人类 uplift 大约一半的效果：顶级系统约 25%-28%，人类基线约 51%。这距离替代前沿实验室的后训练团队还远，但已经不是玩具任务。

Anthropic 的小模型训练优化任务更直接。Claude Opus 4 在 2025 年 5 月只能把 CPU-only 小语言模型训练实现加速 2.9 倍，Opus 4.5 到 16.5 倍，Opus 4.6 到 30 倍，Claude Mythos Preview 到 52 倍。作为参照，人类研究员通常要花 4 到 8 小时才能做到 4 倍加速。

这里的行业背景是，AI 公司现在的竞争不只在模型参数和算力，也在研发吞吐量。OpenAI、Anthropic、Google DeepMind、Meta 都在把 agent 工具接入内部工程流程。Claude Code、OpenCode 这类产品已经展示了一个趋势：一个主代理调度多个子代理，分头写代码、测试、修 bug。管理型 agent 一旦稳定，研发组织的瓶颈会从“谁会写”转向“谁能定义目标、验证结果、承担风险”。

最大变量不是跑分，而是前沿研发的真实成本和创造性

Clark 自己也给了重要限定：他的判断来自公开论文、benchmark 和产品观察拼出的趋势图，单个基准都有噪声。SWE-Bench、CORE-Bench 这类测试存在标签错误、题目泄漏、任务分布偏窄和饱和问题。能完成可验证工程任务，不等于已经具备原创科学发现能力。

更现实的限制是成本。非前沿模型可以用较低预算验证“模型训练继任者”概念；前沿模型则不同，训练一次可能涉及巨额 GPU 集群、数据治理、系统工程、对齐评估和安全审查。很多失败不会出现在 benchmark 分数里，只会出现在账单、排期和事故复盘里。

对 AI 研究负责人和工程负责人来说，短期动作不是解散团队，而是重排工作流：把复现、实验编排、训练脚本优化、评测报告交给 agent 试跑；把人力放到问题定义、结果审计和高风险决策上。接下来最该观察的不是某个榜单又涨了几分，而是有没有公开案例证明：一个 AI 系统能在无人干预下提出训练方案、执行实验、修正失败，并训练出性能更好的继任模型。

锐评 Commentary

临界点未到，水位已涨。误判它会浪费算力，轻视它会误了船期。

AI R&D自主研发系统Jack ClarkImport AI多代理管理代码生成实验复现模型微调训练优化科研代理