OpenAI 的 LifeSciBench：生命科学 AI 终于被拉回研究现场

核心摘要 Summary

OpenAI 发布 LifeSciBench，用 750 个专家任务评估 AI 处理真实生命科学研究问题的能力。
它测的不是生物学知识背诵，而是证据处理、实验设计、转化判断和风险权衡。
GPT-Rosalind 总体通过率升到 36.1%，进步明显，但离可靠科研合作者还有距离。

OpenAI 这次没有发新模型，而是发了一张更难的考卷：LifeSciBench。

这张考卷的反常点在于，它不满足于问 AI“某个蛋白叫什么”“某条通路怎么走”。它把模型放进更接近药研现场的任务里：读材料、看附件、处理冲突证据、写出专家能评判的研究判断。

这件事对生命科学 AI 很关键。因为药研里最贵的错误，往往不是知识点答错，而是把证据看得太满，把风险说得太轻。

它考的不是知识点，而是研究判断

LifeSciBench 一共包含 750 个专家撰写任务，覆盖 7 类工作流和 7 个生物领域。

这些任务由 173 位科学家贡献，配有 1062 个附件。附件包括图表、PDF、表格、序列文件、结构或化学文件、网页引用等。

评分也不是“标准答案一锤定音”。OpenAI 为这些任务设置了 19020 条评分标准，平均每题约 25 条 rubric，并请 453 位独立专家评审。

项目	数字	说明
专家任务	750 个	模拟真实研究请求
附件材料	1062 个	模型要读 prompt 之外的证据
多步推理任务	79%	需要连续判断，不是单点问答
需处理附件任务	53%	要综合图表、文件和外部材料
评分标准	19020 条	看证据、过程、限制和可行动性
独立评审	453 位	由专家判断输出是否过关

这套基准的关键词不是“会不会”，而是“敢不敢用”。

它测的是证据处理、分析、设计优化、科学推理、验证运营、转化和科学沟通。放到药企或 biotech 里，就是模型能不能帮团队判断下一步实验怎么做，某个 biomarker 是否能支撑转化，某个风险有没有被低估。

边界也要说清楚。LifeSciBench 不是临床验证工具。它不证明某个药有效，也不替代监管结论。它评估的是研究任务处理能力。

这点很重要。生命科学 AI 最容易被讲成“发现新药”的大故事，但真实落地往往先发生在更窄的地方：整理证据、写方案、检查假设、提示风险。

分数上去了，但还不能当独立决策者

OpenAI 给出的对比结果是：GPT-Rosalind 相比 GPT-5.5，总体 pass rate 从 25.7% 提升到 36.1%。

这个提升不小。也不能吹过头。36.1% 的通过率说明模型更能帮忙，但远没到可以独立拍板。

指标	GPT-5.5	GPT-Rosalind	该怎么看
总体通过率	25.7%	36.1%	明显进步，但仍不可靠
科学沟通	56.3%	71.1%	样本量 n=9，不能放大解读
转化任务	36.8%	57.7%	更接近药研里的高价值场景
可行动输出评分	29.1%	44.7%	开始像助手，不像负责人
不确定性处理评分	29.3%	44.8%	会写 caveat，是底线，不是加分项

我更在意后两项：可行动输出、不确定性处理。

生命科学里的 AI，如果只会给一个流畅结论，反而危险。真正有用的模型，要能指出哪里证据不足，哪里 assay 有缺陷，哪里样本量撑不起叙事，哪里可能碰到监管问题。

“知之为知之，不知为不知。”这句话放在 AI 科研里一点不旧。

生命科学不是客服问答。错一次，不只是用户体验问题。它可能意味着实验资源被烧掉，临床路径被误导，甚至风险被转嫁给患者。

科学沟通类别从 56.3% 到 71.1%，看起来很亮眼。但样本量只有 n=9，原文也提示要谨慎。这个分数更适合作为信号，不适合作为结论。

转化任务从 36.8% 到 57.7%，更值得盯。因为转化判断接近药研最难的部分：把台架证据接到临床含义、患者分层和风险收益上。

但也正因为难，模型分数越高，越要看它错在哪里。错在事实检索，和错在风险权衡，不是一回事。前者能补查，后者可能直接改变研发方向。

真正受影响的是研发团队和 AI 产品团队

这不是给普通用户看的排行榜。最该动起来的是两类人。

一类是药企和 biotech 的研发团队。

他们不该因为 36.1% 的通过率就把模型塞进关键决策链。更现实的做法，是把 AI 放在低风险、可复核的位置：文献整理、实验方案初稿、证据缺口检查、会议材料准备、风险清单生成。

采购和试点也会更谨慎。团队可以用 LifeSciBench 这类任务思路，反向改造内部评测：别只问模型懂不懂生物学，要让它处理真实附件、真实约束、真实 rubric。

另一类是生命科学 AI 产品团队。

如果产品还停留在“会总结论文”“会生成报告”，竞争力会变薄。LifeSciBench 暗示的方向更硬：产品要能追踪证据来源，标出不确定性，解释判断依据，并把输出拆成专家可审的步骤。

这会改变产品开发优先级。少做一点演示里的漂亮答案，多做一点审计链、引用链、rubric 对齐和人工复核流程。

真正的约束也在这里。模型能力只是一个变量。研发组织愿不愿意改流程，法务和合规敢不敢接，专家是否愿意把判断标准写成可评估 rubric，都会决定这类工具能走多远。

铁路早年改变的不是“马车速度”，而是货运、调度、保险和监管一起重排。生命科学 AI 也类似，但不完全一样。它不是把速度拉满就行，它还要回答责任归属。

接下来最该观察的，不是榜单又涨了几分，而是三件事：

模型在失败任务里主要错在哪里.事实、推理、证据权重，还是风险判断。
药企是否把这类评测纳入内部采购和试点门槛。
AI 产品能否提供可审计输出，而不是只给一段看似专家的文字。

LifeSciBench 的价值，就在于把这些问题摆到桌面上。

它没有证明 AI 已经会做科研。它至少证明了一件事：生命科学 AI 的评测，不能再停留在刷题阶段。

模型看起来更会研究了。但研究不是把话说圆。能说明证据，能承认边界，能让专家追责，才算真正入场。

OpenAI 的 LifeSciBench：生命科学 AI 终于被拉回研究现场

LifeSciBench

评测转向

真实任务

能力进步

可行动性

使用边界

低风险场景

影响对象

药企试点

它考的不是知识点，而是研究判断

分数上去了，但还不能当独立决策者

真正受影响的是研发团队和 AI 产品团队