Nature 本周二发表两篇论文,分别介绍 Google 的 Co-Scientist 和非营利机构 FutureHouse 的 Robin。两套 AI 科学助手都在药物再利用相关任务中交出了实验验证结果:前者面向急性髓系白血病,后者面向一种黄斑变性模型。
这条新闻的分量不在于“AI 发现了新药”。更准确的说法是,AI 正在变成一种科研筛选工具:它能读大量论文,找出人类研究者可能漏掉的生物学连接,再把候选假设交给专家和实验体系检验。
两套系统都在解决文献过载,而不是替代科学家
生物医学研究的一个现实问题是,论文太多、领域太碎。一个眼科疾病相关通路,可能在肾脏、免疫或肿瘤文献里已有线索,但研究者未必有时间跨领域逐篇追踪。
Co-Scientist 和 Robin 的共同价值就在这里:做“组合式检索”和假设筛选。它们不是凭空发明理论,而是从已发表文献中寻找非显而易见的关联,再把这些关联转成可实验验证的问题。
| 项目 | Google Co-Scientist | FutureHouse Robin |
|---|---|---|
| 底层模型/工具 | 基于 Gemini,可调用外部搜索工具 | 使用 Crow、Falcon 做文献总结和综述 |
| 工作方式 | 假设生成、锦标赛式评估、Reflection/Evolution 迭代 | 30 分钟分析 551 篇论文,生成机制和药物报告 |
| 人类角色 | 专家审查白血病候选药物并决定优先级 | 专家筛选候选药物、实验模型和检测方案 |
| 额外能力 | 重点在假设排序和候选生成 | Finch 可处理部分标准实验数据,如流式细胞术、RNA-seq |
这也是它们与普通聊天机器人拉开距离的地方。专用文献工具能降低幻觉。FutureHouse 报告称,用 OpenAI 的 o4-mini 替换 Crow 后,虚构引用率升至 45%。对科研人员来说,错一个引用不是小瑕疵,而可能意味着几周实验和经费被带偏。
成果边界要说清:细胞模型有效,不等于临床可用
两篇论文展示的成功主要发生在细胞模型和假设筛选阶段。Google 的系统找到若干可能作用于急性髓系白血病细胞的已知药物,但效果只出现在部分髓系白血病细胞中。Robin 则提出增强视网膜细胞清除细胞外碎片能力,可能对黄斑变性相关模型有保护作用,并找到一个在其建议实验中有效的药物。
这已经有价值。药物再利用的好处是,许多分子已有安全性资料、监管记录,甚至专利到期,进入后续研究的成本可能低于全新分子。但这仍是药物开发里相对具体、相对收敛的问题:已知药物、已知疾病模型、已知实验读数。
行业现实更冷。大量候选药物能在细胞里奏效,却在动物实验和人体临床中失败。细胞系不是病人,培养皿里的机制也不等于复杂器官和免疫系统里的疗效。把这类结果包装成“AI 攻克药物研发”,是对科研流程的误读。
受影响最大的是科研团队的早期决策
这类工具最先改变的不是医生开药,也不是药企立刻缩短十年研发周期,而是科研团队早期立项和实验排队的方式。
对生物医学实验室来说,真正稀缺的是时间、样本、试剂和学生的手。一个博士生花两个月做文献综述,和 AI 半小时读完 551 篇论文后给出候选清单,差别不只在效率,也在试错成本。更现实的用法会是:让 AI 提出 20 个候选机制,人类专家砍到 5 个,再把有限实验资源押给最可测、最安全、最有文献支撑的方向。
接下来最该观察三件事:这些系统能否在更多疾病和实验室复现;能否处理更开放的科学问题,而不只是“某药是否作用于某模型”;以及在真实药企流程中,是否能减少无效实验,而不是制造更多看似合理的候选清单。
目前能下的判断很有限,但并不悲观。AI 科学助手的第一块硬地,不是替代科学发现,而是把散落在论文海里的线索捞出来,交给仍需负责的人类科学家。
