OpenAI 这次没有发新模型,而是发了一张更难的考卷:LifeSciBench。
这张考卷的反常点在于,它不满足于问 AI“某个蛋白叫什么”“某条通路怎么走”。它把模型放进更接近药研现场的任务里:读材料、看附件、处理冲突证据、写出专家能评判的研究判断。
这件事对生命科学 AI 很关键。因为药研里最贵的错误,往往不是知识点答错,而是把证据看得太满,把风险说得太轻。
它考的不是知识点,而是研究判断
LifeSciBench 一共包含 750 个专家撰写任务,覆盖 7 类工作流和 7 个生物领域。
这些任务由 173 位科学家贡献,配有 1062 个附件。附件包括图表、PDF、表格、序列文件、结构或化学文件、网页引用等。
评分也不是“标准答案一锤定音”。OpenAI 为这些任务设置了 19020 条评分标准,平均每题约 25 条 rubric,并请 453 位独立专家评审。
| 项目 | 数字 | 说明 |
|---|---|---|
| 专家任务 | 750 个 | 模拟真实研究请求 |
| 附件材料 | 1062 个 | 模型要读 prompt 之外的证据 |
| 多步推理任务 | 79% | 需要连续判断,不是单点问答 |
| 需处理附件任务 | 53% | 要综合图表、文件和外部材料 |
| 评分标准 | 19020 条 | 看证据、过程、限制和可行动性 |
| 独立评审 | 453 位 | 由专家判断输出是否过关 |
这套基准的关键词不是“会不会”,而是“敢不敢用”。
它测的是证据处理、分析、设计优化、科学推理、验证运营、转化和科学沟通。放到药企或 biotech 里,就是模型能不能帮团队判断下一步实验怎么做,某个 biomarker 是否能支撑转化,某个风险有没有被低估。
边界也要说清楚。LifeSciBench 不是临床验证工具。它不证明某个药有效,也不替代监管结论。它评估的是研究任务处理能力。
这点很重要。生命科学 AI 最容易被讲成“发现新药”的大故事,但真实落地往往先发生在更窄的地方:整理证据、写方案、检查假设、提示风险。
分数上去了,但还不能当独立决策者
OpenAI 给出的对比结果是:GPT-Rosalind 相比 GPT-5.5,总体 pass rate 从 25.7% 提升到 36.1%。
这个提升不小。也不能吹过头。36.1% 的通过率说明模型更能帮忙,但远没到可以独立拍板。
| 指标 | GPT-5.5 | GPT-Rosalind | 该怎么看 |
|---|---|---|---|
| 总体通过率 | 25.7% | 36.1% | 明显进步,但仍不可靠 |
| 科学沟通 | 56.3% | 71.1% | 样本量 n=9,不能放大解读 |
| 转化任务 | 36.8% | 57.7% | 更接近药研里的高价值场景 |
| 可行动输出评分 | 29.1% | 44.7% | 开始像助手,不像负责人 |
| 不确定性处理评分 | 29.3% | 44.8% | 会写 caveat,是底线,不是加分项 |
我更在意后两项:可行动输出、不确定性处理。
生命科学里的 AI,如果只会给一个流畅结论,反而危险。真正有用的模型,要能指出哪里证据不足,哪里 assay 有缺陷,哪里样本量撑不起叙事,哪里可能碰到监管问题。
“知之为知之,不知为不知。”这句话放在 AI 科研里一点不旧。
生命科学不是客服问答。错一次,不只是用户体验问题。它可能意味着实验资源被烧掉,临床路径被误导,甚至风险被转嫁给患者。
科学沟通类别从 56.3% 到 71.1%,看起来很亮眼。但样本量只有 n=9,原文也提示要谨慎。这个分数更适合作为信号,不适合作为结论。
转化任务从 36.8% 到 57.7%,更值得盯。因为转化判断接近药研最难的部分:把台架证据接到临床含义、患者分层和风险收益上。
但也正因为难,模型分数越高,越要看它错在哪里。错在事实检索,和错在风险权衡,不是一回事。前者能补查,后者可能直接改变研发方向。
真正受影响的是研发团队和 AI 产品团队
这不是给普通用户看的排行榜。最该动起来的是两类人。
一类是药企和 biotech 的研发团队。
他们不该因为 36.1% 的通过率就把模型塞进关键决策链。更现实的做法,是把 AI 放在低风险、可复核的位置:文献整理、实验方案初稿、证据缺口检查、会议材料准备、风险清单生成。
采购和试点也会更谨慎。团队可以用 LifeSciBench 这类任务思路,反向改造内部评测:别只问模型懂不懂生物学,要让它处理真实附件、真实约束、真实 rubric。
另一类是生命科学 AI 产品团队。
如果产品还停留在“会总结论文”“会生成报告”,竞争力会变薄。LifeSciBench 暗示的方向更硬:产品要能追踪证据来源,标出不确定性,解释判断依据,并把输出拆成专家可审的步骤。
这会改变产品开发优先级。少做一点演示里的漂亮答案,多做一点审计链、引用链、rubric 对齐和人工复核流程。
真正的约束也在这里。模型能力只是一个变量。研发组织愿不愿意改流程,法务和合规敢不敢接,专家是否愿意把判断标准写成可评估 rubric,都会决定这类工具能走多远。
铁路早年改变的不是“马车速度”,而是货运、调度、保险和监管一起重排。生命科学 AI 也类似,但不完全一样。它不是把速度拉满就行,它还要回答责任归属。
接下来最该观察的,不是榜单又涨了几分,而是三件事:
- 模型在失败任务里主要错在哪里.事实、推理、证据权重,还是风险判断。
- 药企是否把这类评测纳入内部采购和试点门槛。
- AI 产品能否提供可审计输出,而不是只给一段看似专家的文字。
LifeSciBench 的价值,就在于把这些问题摆到桌面上。
它没有证明 AI 已经会做科研。它至少证明了一件事:生命科学 AI 的评测,不能再停留在刷题阶段。
模型看起来更会研究了。但研究不是把话说圆。能说明证据,能承认边界,能让专家追责,才算真正入场。
