OpenAI 这次没有发新模型,而是发了一张更难的考卷:LifeSciBench。

这张考卷的反常点在于,它不满足于问 AI“某个蛋白叫什么”“某条通路怎么走”。它把模型放进更接近药研现场的任务里:读材料、看附件、处理冲突证据、写出专家能评判的研究判断。

这件事对生命科学 AI 很关键。因为药研里最贵的错误,往往不是知识点答错,而是把证据看得太满,把风险说得太轻。

它考的不是知识点,而是研究判断

LifeSciBench 一共包含 750 个专家撰写任务,覆盖 7 类工作流和 7 个生物领域。

这些任务由 173 位科学家贡献,配有 1062 个附件。附件包括图表、PDF、表格、序列文件、结构或化学文件、网页引用等。

评分也不是“标准答案一锤定音”。OpenAI 为这些任务设置了 19020 条评分标准,平均每题约 25 条 rubric,并请 453 位独立专家评审。

项目数字说明
专家任务750 个模拟真实研究请求
附件材料1062 个模型要读 prompt 之外的证据
多步推理任务79%需要连续判断,不是单点问答
需处理附件任务53%要综合图表、文件和外部材料
评分标准19020 条看证据、过程、限制和可行动性
独立评审453 位由专家判断输出是否过关

这套基准的关键词不是“会不会”,而是“敢不敢用”。

它测的是证据处理、分析、设计优化、科学推理、验证运营、转化和科学沟通。放到药企或 biotech 里,就是模型能不能帮团队判断下一步实验怎么做,某个 biomarker 是否能支撑转化,某个风险有没有被低估。

边界也要说清楚。LifeSciBench 不是临床验证工具。它不证明某个药有效,也不替代监管结论。它评估的是研究任务处理能力。

这点很重要。生命科学 AI 最容易被讲成“发现新药”的大故事,但真实落地往往先发生在更窄的地方:整理证据、写方案、检查假设、提示风险。

分数上去了,但还不能当独立决策者

OpenAI 给出的对比结果是:GPT-Rosalind 相比 GPT-5.5,总体 pass rate 从 25.7% 提升到 36.1%。

这个提升不小。也不能吹过头。36.1% 的通过率说明模型更能帮忙,但远没到可以独立拍板。

指标GPT-5.5GPT-Rosalind该怎么看
总体通过率25.7%36.1%明显进步,但仍不可靠
科学沟通56.3%71.1%样本量 n=9,不能放大解读
转化任务36.8%57.7%更接近药研里的高价值场景
可行动输出评分29.1%44.7%开始像助手,不像负责人
不确定性处理评分29.3%44.8%会写 caveat,是底线,不是加分项

我更在意后两项:可行动输出、不确定性处理。

生命科学里的 AI,如果只会给一个流畅结论,反而危险。真正有用的模型,要能指出哪里证据不足,哪里 assay 有缺陷,哪里样本量撑不起叙事,哪里可能碰到监管问题。

“知之为知之,不知为不知。”这句话放在 AI 科研里一点不旧。

生命科学不是客服问答。错一次,不只是用户体验问题。它可能意味着实验资源被烧掉,临床路径被误导,甚至风险被转嫁给患者。

科学沟通类别从 56.3% 到 71.1%,看起来很亮眼。但样本量只有 n=9,原文也提示要谨慎。这个分数更适合作为信号,不适合作为结论。

转化任务从 36.8% 到 57.7%,更值得盯。因为转化判断接近药研最难的部分:把台架证据接到临床含义、患者分层和风险收益上。

但也正因为难,模型分数越高,越要看它错在哪里。错在事实检索,和错在风险权衡,不是一回事。前者能补查,后者可能直接改变研发方向。

真正受影响的是研发团队和 AI 产品团队

这不是给普通用户看的排行榜。最该动起来的是两类人。

一类是药企和 biotech 的研发团队。

他们不该因为 36.1% 的通过率就把模型塞进关键决策链。更现实的做法,是把 AI 放在低风险、可复核的位置:文献整理、实验方案初稿、证据缺口检查、会议材料准备、风险清单生成。

采购和试点也会更谨慎。团队可以用 LifeSciBench 这类任务思路,反向改造内部评测:别只问模型懂不懂生物学,要让它处理真实附件、真实约束、真实 rubric。

另一类是生命科学 AI 产品团队。

如果产品还停留在“会总结论文”“会生成报告”,竞争力会变薄。LifeSciBench 暗示的方向更硬:产品要能追踪证据来源,标出不确定性,解释判断依据,并把输出拆成专家可审的步骤。

这会改变产品开发优先级。少做一点演示里的漂亮答案,多做一点审计链、引用链、rubric 对齐和人工复核流程。

真正的约束也在这里。模型能力只是一个变量。研发组织愿不愿意改流程,法务和合规敢不敢接,专家是否愿意把判断标准写成可评估 rubric,都会决定这类工具能走多远。

铁路早年改变的不是“马车速度”,而是货运、调度、保险和监管一起重排。生命科学 AI 也类似,但不完全一样。它不是把速度拉满就行,它还要回答责任归属。

接下来最该观察的,不是榜单又涨了几分,而是三件事:

  • 模型在失败任务里主要错在哪里.事实、推理、证据权重,还是风险判断。
  • 药企是否把这类评测纳入内部采购和试点门槛。
  • AI 产品能否提供可审计输出,而不是只给一段看似专家的文字。

LifeSciBench 的价值,就在于把这些问题摆到桌面上。

它没有证明 AI 已经会做科研。它至少证明了一件事:生命科学 AI 的评测,不能再停留在刷题阶段。

模型看起来更会研究了。但研究不是把话说圆。能说明证据,能承认边界,能让专家追责,才算真正入场。