把旧论文交给 AI“返工”:一位研究者用 42 次实验,试出了自动科研的甜头与天花板

当研究员去洗衣服,AI 在改论文代码
科技圈最近很流行一句半开玩笑的话:最好的 AI 应用,不是替你写一首诗,而是替你干你懒得干、但又不得不干的活。Yogesh Kumar 这次做的实验,就很像这句话的现实版本。
他把自己过去一个名为 eCLIP 的老研究项目重新翻出来,修好依赖、换上新数据集,然后交给 Claude Code 去“自己折腾”。规则很简单:AI 只能改一个训练文件,按照预先写好的说明文档,在一次次“提出假设—修改代码—训练—评估—保留或回滚”的循环里,去优化模型表现。整个过程被严格限制在容器里,没有网络、不能乱装库、不能直接接触主机环境,像是给一个聪明但偶尔会犯浑的实习生,划好了实验室里的黄线。
这个故事有趣的地方恰恰在于,它不是那种“AI 自主发现新物理定律”的宏大叙事,而是一场非常接地气的周末试验。作者去做家务、买杂货,AI 在旁边跑实验。等他回来时,系统已经默默完成了几十轮尝试。听起来有点像科研版的洗碗机:它不会决定你晚饭吃什么,但能把最重复的脏活先干掉。
它到底做了什么:不是天才顿悟,更像高配版自动调参
从结果看,这套“自动科研”流程并不神秘,甚至可以说相当朴素。作者选用了带空间标注的数据集 Ukiyo-eVG——大约 1.1 万张日本浮世绘图像,每张图配有文字短语和对应的边界框。边界框被转换成高斯热力图,作为额外输入送进模型,模拟原始 eCLIP 论文里医学场景中的“专家注意力”信号。
模型本身也不是那种动辄数十亿参数的怪兽,而是一个大约 9000 万参数的组合:ViT-Small 负责图像,DistilBERT 负责文本,再加一个热力图处理模块。单次训练约 800 步,在 RTX 4090 上三分钟左右跑完。这个设计非常关键,因为它透露出自动科研最现实的一条原则:实验得便宜、得快,AI 才有资格多试。要是一次训练就跑八小时,再聪明的代理也会变成一个只会烧显卡的祖宗。
一天结束后,Claude Code 一共做了 42 次实验,其中 13 次被保留,29 次被回滚。验证集上的 Mean Rank 从 344.68 降到 157.43,降幅达到 54%。而在后续更完整的训练中,测试集表现继续提升,图文双向检索的 R@5 都超过了 50%。这当然不是震撼学界的突破,但对于一个“旧代码 + 新数据 + 周末试验”的组合来说,已经相当漂亮。
更有意思的是,最大收益并不是某个石破天惊的新结构,而是一次极其典型、也极其人类科研日常的修 bug。AI 发现作者把对比学习里的可学习 temperature 参数上限卡得太死,放宽这个限制之后,指标一下子就掉了 113 点。换句话说,最大的进步不是“AI 发明了新科学”,而是“AI 抓住了一个你自己可能早就忘了的坑”。这一幕非常真实,也非常说明问题:今天的大模型代理,最擅长的事情,仍然是系统化搜索、排查和调参,而不是凭空创造。
为什么这件事在今天值得关注
如果把时间拨回两三年前,AI 写代码已经足够让人惊讶;但今天,行业关注点正在悄悄变化。大家开始问的不是“它能不能写一个函数”,而是“它能不能围绕一个目标,连续做几十步正确的事”。Autoresearch 这类尝试的重要性,就在这里。
过去的机器学习研究很大程度上依赖研究员的耐心:改一个超参数,跑一次;换一个损失函数,跑一次;觉得某个层可能有问题,再跑一次。这种工作并不高级,却吞噬大量时间。很多所谓“灵感”,其实是建立在你先做完几十轮无聊实验之后。Karpathy 提出的 Autoresearch,和这次 Yogesh Kumar 的复现实验,都在试图把这部分流程模板化、代理化。它们告诉我们的不是“AI 科学家已经诞生”,而是“科研流水线里那些重复工序,开始可以交给机器了”。
这和近一年来 AI Agent 的整体走向也是一致的。无论是 OpenAI、Anthropic,还是一众开源社区,大家都在把大模型从“对话式助手”往“目标驱动型执行者”推进。代码代理、浏览器代理、数据分析代理,本质上都在解决同一个问题:如何让模型不只会说,还能在一个边界清晰的系统里持续做事。科研只是这个趋势里最诱人的试验田之一,因为它既有明确指标,又容得下大量试错。
但这件事真正让人兴奋的地方,还不只是效率。它会改变谁能做研究。以前,很多个人开发者或小团队卡在“没有时间系统调参”“没法跑足够多 ablation”这类现实门槛上。代理式实验系统一旦成熟,研究资源的分配方式可能会变:不是谁更能熬夜,谁就更容易出结果,而是谁更会设计搜索空间、定义评估标准、设置实验边界。
它的边界也很清楚:会做题,不等于会发现新题
当然,给 AI 科研热情泼一点冷水也很有必要。作者自己的结论就相当诚实:前 90% 很顺,后 10% 很磨人。越往后,AI 提出的改动越像“往墙上扔意大利面,看哪根能粘住”。尤其到了结构创新和“脑洞阶段”,成功率明显下降。热力图处理模块的注意力机制改造没奏效,那些更大胆的 moonshot 想法也大多失败了。
这恰恰说明,当前这类自动科研系统非常依赖问题是否“足够定义良好”。如果目标明确、指标稳定、改动空间受控,它就很像一个不知疲倦的优化器,效率惊人;可一旦进入开放性探索,模型就容易在“未知的未知”里迷路。它会胡乱尝试 bash 命令,会忘记权限边界,甚至会因为等训练太久而“结束对话”。读到这里,你会发现这不像一个冷酷无情的超级智能,反倒更像一个偶尔会摆烂的远程实习生。
这也是我对“AI 自动做科研”最核心的判断:它短期内不会取代真正的研究者,尤其无法替代提出好问题、判断方向价值、理解异常结果的能力。但它很可能会迅速吞掉科研中的中间层劳动——那些机械重复、但又必须做完的验证、复现实验和参数扫描。
这里还有一个值得行业认真讨论的问题:如果未来越来越多论文的实验部分由 AI 代理完成,那么科研评价体系要不要变化?当“多跑了 300 组实验”不再是团队体力优势,而是工具优势时,论文的新意、解释力和问题选择,可能会比纯结果数字更重要。换句话说,自动科研可能不会马上改变科学发现本身,却会先改变“什么样的努力值得被奖励”。
真正的启发,可能是把研究工作重新拆一遍
Yogesh Kumar 这次周末实验最妙的地方,在于它没有试图证明一个夸张结论。它只是非常具体地展示了:在一台 4090、一个受限容器、一个老项目和一份清晰说明书的条件下,AI 已经能把研究里的局部环节做得像模像样。
这给从业者的启发其实很直接。今后的研究工作,也许要拆成两部分:一部分是人来做的——定义问题、设定边界、设计指标、理解失败;另一部分是代理来做的——在边界内高速试错、记录过程、回滚坏想法、积累局部最优。谁能把这条分工线画得清楚,谁就更可能在下一波科研工具升级里占到便宜。
我尤其认同作者强调的“沙箱”思路。很多人谈 AI Agent 时总想着给它更多权限,仿佛自主性越大越高级。但现实往往相反:真正可用的代理,不是最自由的那个,而是最知道自己该碰什么、不该碰什么的那个。把模型关进一个规则明确的实验框里,反而更容易产生稳定价值。
说到底,这不是一个关于 AGI 的故事,而是一个关于劳动分工的故事。AI 没有在这个周末创造新范式,但它确实帮人把一个几乎要蒙灰的研究点子重新点亮了。这已经足够让人兴奋。毕竟在科技史上,很多真正改变世界的工具,起初看起来都不像“革命”,更像是“终于有人把这件麻烦事自动化了”。