OpenAI这次公开的不是一个“AI懂生物”的炫技榜单,而是GeneBench-Pro的10个案例题页面。
每个案例都给出原始prompt、数据集和支撑材料。反常点在这里:它不急着考模型背了多少生物知识,而是把模型丢进一堆不干净的数据里,看它会不会先排雷,再下判断。
这比答题难得多。生物医学里最要命的错误,常常不是术语说错,而是把混杂因素当因果,把测序伪影当发现,把不确定结论写成临床建议。
这10道题考的是分析链条
GeneBench-Pro这批案例覆盖肿瘤治疗决策、CRISPR靶点验证、统计遗传、携带者筛查、单细胞eQTL、结构变异、染色质环、QTL定位、群体遗传、古DNA选择压力。
主线很一致:先校准证据,再谈结论。
| 方向 | 案例任务 | 真正卡点 |
|---|---|---|
| 肿瘤与临床基因组 | 结构变异指导的治疗获益-风险判断 | 长读长、表达、肿瘤质量、药物毒性要一起看 |
| 功能基因组 | CRISPR验证lncRNA依赖 | 区分转录本效应、邻近基因效应、GC毒性和板效应 |
| 统计遗传 | cis-MVMR优先级排序蛋白药靶 | LD、等位基因方向、winner's curse、局部多效性 |
| 携带者筛查 | DRX1残余风险估计 | 伪基因、CNV、祖源校准、伴侣人群标准化 |
| 单细胞与调控 | eQTL、Hi-C环强度等 | ambient RNA、低可比对区域、结构变异伪影 |
| 群体与古DNA | 祖源、混合时间、选择压力 | 标签反转、测序错误、漂变、样本量变化 |
这里必须划清边界。TXR1、TXR1i、DRX1等是synthetic benchmark labels,不是OpenAI宣布了真实药物、真实基因发现或真实临床结论。
页面展示的是benchmark案例。不是模型成绩单,也不是临床可用性证明。
所以,这件事不能读成“OpenAI已经能做基因治疗决策”。更准确的读法是:OpenAI在把AI生物评测从知识问答,推向真实分析链条。
分水岭藏在混杂因素里
过去不少生物benchmark,本质是在测模型能不能记住文献、解释概念、写一段像样的机制推理。
这有用,但离科研和临床还隔着一条河。
这条河叫数据现实。
真实基因组学任务里,问题通常不是“有没有信号”。问题是:这个信号是不是LD带来的?是不是伪基因导致错配?是不是ambient RNA污染了细胞状态?是不是结构变异制造了Hi-C条纹?是不是祖源标签在某条染色体上反了?是不是古DNA测序错误让选择压力看起来更强?
模型只会说术语,会显得很聪明。但它越自信,越危险。
GeneBench-Pro有价值的地方,是把模型放到更接近专业分析师的位置。它不能急着回答。它要先问数据能不能信,变量有没有对齐,比较对象是不是同一尺度,结论会不会被偏差推着走。
这不像普通考试题,更像早期铁路铺轨后的信号系统测试。火车跑得快当然好,但真正决定灾难的,是岔道、信号灯和调度误差。
AI进生物医学也是这样。生成能力是发动机,校准能力才是刹车和信号系统。
“差之毫厘,谬以千里。”这句话放在基因组学里一点不虚。一个等位基因方向错了,一个祖源分层没处理,一个低可比对区域没遮掉,最后都可能变成看似漂亮、实际很脆的结论。
真正受影响的是两类人
对AI生物医药团队来说,这类benchmark会改变评估顺序。
不能只问模型会不会读论文、写机制、生成实验方案。更要问它能不能识别伪影,能不能主动要求校准,能不能在证据不足时降权,甚至拒绝下结论。
具体动作会很现实:采购或接入模型前,团队应该把评测集从“知识问答”扩到“分析流程”。尤其是靶点优先级、遗传证据、临床前风险判断这几类场景,不能只看回答是否顺滑。
对计算生物学和基因组学研究者来说,GeneBench-Pro提供了一个观察窗口。
模型到底是在复述常识,还是抓住了流程里的控制点?比如先处理ambient RNA再建eQTL模型,这不是小细节,而是结论能不能站住的前提。
这也会逼研究者调整使用方式。把模型当“解释器”可以省时间;把模型当“审稿人”或“分析员”,就要给它检查项、边界条件和可追溯证据。否则自动化越多,错得越快。
目前还看不清的是模型表现。OpenAI这页材料没有给出成绩、排名、通过率,也没有证明哪一个模型已经能稳定完成这些任务。
接下来最该看的不是漂亮demo,而是四件事:
- 模型能否主动识别LD、伪基因、ambient RNA、低可比对区域这类陷阱;
- 模型能否把证据强弱说清,而不是把相关性写成因果;
- 模型能否在关键数据缺失时停止推断;
- 评测是否能复现到不同数据集和不同实验设定里。
我不太买账“AI已经懂生命科学”的大叙事。懂术语,离懂实验和临床后果还很远。
真正有价值的模型,不是把论文摘要讲得更顺,而是在证据互相打架时,知道哪里该停,哪里该降权,哪里不能下结论。
GeneBench-Pro的意义就在这里。它没有把AI包装成全知助手,而是把AI拖进生物医学最泥泞的地方。
泥泞里跑得稳,才算本事。
