OpenAI的GeneBench-Pro：基因测试题真正难在脏数据

核心摘要 Summary

OpenAI公开了GeneBench-Pro的10个案例题，材料包括原始prompt、数据集和支撑材料，但没有公布模型成绩、排名或通过率。
它的重点不是证明AI能做临床决策，而是把模型推到基因组学里最麻烦的地带：混杂因素、伪影、校准和不确定性。
对AI生物医药团队和计算生物学研究者来说，接下来要看的不是模型会不会说术语，而是能不能少犯危险的确定性错误。

OpenAI这次公开的不是一个“AI懂生物”的炫技榜单，而是GeneBench-Pro的10个案例题页面。

每个案例都给出原始prompt、数据集和支撑材料。反常点在这里：它不急着考模型背了多少生物知识，而是把模型丢进一堆不干净的数据里，看它会不会先排雷，再下判断。

这比答题难得多。生物医学里最要命的错误，常常不是术语说错，而是把混杂因素当因果，把测序伪影当发现，把不确定结论写成临床建议。

这10道题考的是分析链条

GeneBench-Pro这批案例覆盖肿瘤治疗决策、CRISPR靶点验证、统计遗传、携带者筛查、单细胞eQTL、结构变异、染色质环、QTL定位、群体遗传、古DNA选择压力。

主线很一致：先校准证据，再谈结论。

方向	案例任务	真正卡点
肿瘤与临床基因组	结构变异指导的治疗获益-风险判断	长读长、表达、肿瘤质量、药物毒性要一起看
功能基因组	CRISPR验证lncRNA依赖	区分转录本效应、邻近基因效应、GC毒性和板效应
统计遗传	cis-MVMR优先级排序蛋白药靶	LD、等位基因方向、winner's curse、局部多效性
携带者筛查	DRX1残余风险估计	伪基因、CNV、祖源校准、伴侣人群标准化
单细胞与调控	eQTL、Hi-C环强度等	ambient RNA、低可比对区域、结构变异伪影
群体与古DNA	祖源、混合时间、选择压力	标签反转、测序错误、漂变、样本量变化

这里必须划清边界。TXR1、TXR1i、DRX1等是synthetic benchmark labels，不是OpenAI宣布了真实药物、真实基因发现或真实临床结论。

页面展示的是benchmark案例。不是模型成绩单，也不是临床可用性证明。

所以，这件事不能读成“OpenAI已经能做基因治疗决策”。更准确的读法是：OpenAI在把AI生物评测从知识问答，推向真实分析链条。

分水岭藏在混杂因素里

过去不少生物benchmark，本质是在测模型能不能记住文献、解释概念、写一段像样的机制推理。

这有用，但离科研和临床还隔着一条河。

这条河叫数据现实。

真实基因组学任务里，问题通常不是“有没有信号”。问题是：这个信号是不是LD带来的？是不是伪基因导致错配？是不是ambient RNA污染了细胞状态？是不是结构变异制造了Hi-C条纹？是不是祖源标签在某条染色体上反了？是不是古DNA测序错误让选择压力看起来更强？

模型只会说术语，会显得很聪明。但它越自信，越危险。

GeneBench-Pro有价值的地方，是把模型放到更接近专业分析师的位置。它不能急着回答。它要先问数据能不能信，变量有没有对齐，比较对象是不是同一尺度，结论会不会被偏差推着走。

这不像普通考试题，更像早期铁路铺轨后的信号系统测试。火车跑得快当然好，但真正决定灾难的，是岔道、信号灯和调度误差。

AI进生物医学也是这样。生成能力是发动机，校准能力才是刹车和信号系统。

“差之毫厘，谬以千里。”这句话放在基因组学里一点不虚。一个等位基因方向错了，一个祖源分层没处理，一个低可比对区域没遮掉，最后都可能变成看似漂亮、实际很脆的结论。

真正受影响的是两类人

对AI生物医药团队来说，这类benchmark会改变评估顺序。

不能只问模型会不会读论文、写机制、生成实验方案。更要问它能不能识别伪影，能不能主动要求校准，能不能在证据不足时降权，甚至拒绝下结论。

具体动作会很现实：采购或接入模型前，团队应该把评测集从“知识问答”扩到“分析流程”。尤其是靶点优先级、遗传证据、临床前风险判断这几类场景，不能只看回答是否顺滑。

对计算生物学和基因组学研究者来说，GeneBench-Pro提供了一个观察窗口。

模型到底是在复述常识，还是抓住了流程里的控制点？比如先处理ambient RNA再建eQTL模型，这不是小细节，而是结论能不能站住的前提。

这也会逼研究者调整使用方式。把模型当“解释器”可以省时间；把模型当“审稿人”或“分析员”，就要给它检查项、边界条件和可追溯证据。否则自动化越多，错得越快。

目前还看不清的是模型表现。OpenAI这页材料没有给出成绩、排名、通过率，也没有证明哪一个模型已经能稳定完成这些任务。

接下来最该看的不是漂亮demo，而是四件事：

模型能否主动识别LD、伪基因、ambient RNA、低可比对区域这类陷阱；
模型能否把证据强弱说清，而不是把相关性写成因果；
模型能否在关键数据缺失时停止推断；
评测是否能复现到不同数据集和不同实验设定里。

我不太买账“AI已经懂生命科学”的大叙事。懂术语，离懂实验和临床后果还很远。

真正有价值的模型，不是把论文摘要讲得更顺，而是在证据互相打架时，知道哪里该停，哪里该降权，哪里不能下结论。

GeneBench-Pro的意义就在这里。它没有把AI包装成全知助手，而是把AI拖进生物医学最泥泞的地方。

泥泞里跑得稳，才算本事。

OpenAI的GeneBench-Pro：基因测试题真正难在脏数据

GeneBench Pro

发布重点

材料完整

成绩缺席

评测转向

先校准

非临床证明

核心难点

错误来源

风险本质

受影响者

药研团队

研究者

后续变量

拒绝推断

可复现

这10道题考的是分析链条

分水岭藏在混杂因素里

真正受影响的是两类人