OpenAI 这次没有只让模型在屏幕上写方案。

它把 GPT-5.4 接进 Molecule.one 的 Maria 自动化化学实验平台,让模型生成、筛选研究方案,再由高通量实验室跑真实反应。人类化学家一直在旁边把关。

结果不算玄学,也不该被吹成神迹:10,080 次反应后,一类药物化学里有用但难做的 Chan–Lam 偶联反应,平均产率从 16.6% 提到 25.2%。产率超过 30% 的反应比例,从 15.6% 升到 37.5%。

这件事最容易被讲歪。它不是 AI 独立发现新药,也不是全自动科学家横空出世。更准确地说,它是一次模型、自动化实验室、人类化学家的半闭环协作。

AI 做了什么,没做什么

目标反应是伯磺酰胺与硼酸的 Chan–Lam 偶联,用来形成碳-氮键。磺酰胺结构常见于抗癌药、抗菌药、利尿剂等小分子药物里,但这类反应过去产率偏低,药物化学家经常卡在这里。

这次 GPT-5.4 的作用,不是亲手做实验。它生成并筛选研究方案,把 TEMPO 这类温和氧化剂推到台前。Maria Lab 负责把方案变成实验网格,执行高通量实验,回收数据。

人类负责提示设计、方案选择、纠错、操作辅助和台架复验。少写任何一环,叙事都会变形。

项目结果该怎么理解
实验规模10,080 次反应不是几个样品撞运气
平均产率16.6% → 25.2%有改善,但不是工业化验证
产率超 30% 比例15.6% → 37.5%更多底物组合变得可用
台架验证14 组代表性底物中 11 组提高微量筛选结果部分站住
提升幅度多数组合超过两倍对研发筛选有意义,但边界未定

对药物化学研究者,这意味着一件很具体的事:以前可能被低产率劝退的底物组合,现在有机会多试一轮。对小分子药物发现团队,它的价值不在“替你发现药”,而在扩大可合成分子空间,让更多候选分子进入测试。

但动作上不能太激进。团队可以把这类系统当作路线探索工具、条件筛选工具,而不是立刻改造整条研发流程。没有类似 Maria 的高通量实验基础设施,模型给出的很多建议仍会停在纸面上。

这次硬在实验闭环,不硬在宣传词

我更在意的不是“AI 化学家”这个说法,而是 AI 已经从读文献、写建议,往真实实验闭环里挤了一步。

化学很残酷。瓶子里不出产物,措辞再漂亮也没用。OpenAI 和 Molecule.one 这次拿出的不是一个合理假设,而是经过自动化实验筛选、再被人工台架验证过的结果。

这比普通 AI 科研演示更硬。

硬,也有限。

它依赖专用高通量实验室。它没有端到端自主完成科研项目。人类化学家在关键节点上一直握着方向盘。台架验证只有 14 组代表性底物,虽然 11 组提升,但还不能证明这套方法广泛适用,更不能证明它已经适合制造条件。

“工欲善其事,必先利其器。”这句话放在这里很准。AI 是器,Maria 这样的自动化实验平台也是器。没有后者,模型很容易退回漂亮建议。

铁路早期改变世界,也不只是火车头更强。轨道、调度、标准、资本都要到位。今天的 AI 科研自动化不完全一样,但重复的是同一种结构:单点能力让人兴奋,系统能力决定落地。

对关注 AI 科研自动化的科技读者,这次该调整的不是信仰,而是判断标准。以后看这类新闻,别只看模型名字,要看它有没有接入真实实验、有没有人类把关、有没有台架复验、有没有独立复现。

对药物研发和化学自动化从业者,动作更现实:如果团队已有高通量平台,可以评估把模型接入早期路线探索;如果没有,采购或自建不该因为一篇演示立刻加速。先算清楚样品通量、数据回流、化学家审核成本,再谈自动化。

分水岭不是近自治,而是复现和治理

OpenAI 用的是 near-autonomous,不是 fully autonomous。这个词很克制,也很关键。

近自治意味着模型能提出假设、设计实验、分析数据、安排下一轮测试。全自治还要多得多:独立定义问题,管理风险,处理异常,确认机制,扩大适用范围,并对结果负责。

两者差得很远。

接下来该盯三件事,别盯宣传词。

观察点为什么重要目前边界
独立实验室复现排除平台、流程、选择偏差还需要外部验证
更广底物范围判断方法是否通用目前只看到代表性验证
反应机制研究解释 TEMPO / 4-hydroxy-TEMPO 为什么有效机制还需要讲清

安全边界也不能省略。原文明确说,这次没有测试毒物、化学武器或有害化合物设计。人类化学家仍然控制哪些方案进入实验室。

这不是小字说明,而是整件事的护栏。省掉它,“AI 化学家”就会从科研进展变成营销幻觉。

我不太买账的是那种过早写悼词的叙事。科学家没有被替代。更准确的变化是,科学家的工具链正在变长,试错速度可能变快,审核责任也会变重。

药物发现很多时候不是缺想法,而是缺可合成路径。AI 如果能帮团队更快找到可做、可测、可淘汰的分子,它就有价值。可这份价值要靠实验结账,不靠标题结账。

这次的分水岭很清楚:AI 可以加速试错,但还不能替代科学判断。模型看起来更像同事了,但它仍然坐在一套昂贵、受控、有人盯着的实验机器旁边。

这不是坏事。科研本来就不该靠神谕推进。能被实验约束的 AI,才有资格谈科学。