急诊室里,最贵的往往不是答案,而是第一眼。
哈佛医学院和 Beth Israel Deaconess Medical Center 团队这次把 76 个真实急诊病例拿来测。结果有点扎眼:在初诊分诊这个信息最少、压力最大的环节,OpenAI o1 给出准确或接近准确诊断的比例是 67%。两名主治医生分别是 55% 和 50%。
这个数字不够大,不能拿来宣布“AI 医生来了”。但它足够说明一件事:当诊断被压缩成高压、残缺、文本化的推理任务时,AI 已经不是纯展示品。医疗体系要回答的,也不再只是“模型准不准”。
更难的问题是:它说得有道理时,谁采纳?它说错时,谁负责?
这项研究真正测的是急诊文本推理
这篇研究发表在 Science。团队来自哈佛医学院和 Beth Israel Deaconess Medical Center。
研究者比较了两名主治医生、OpenAI o1 和 OpenAI 4o 在多种医学场景中的表现。最受关注的部分,是 76 名 Beth Israel 急诊患者的诊断任务。
关键点压缩一下:
| 问题 | 答案 |
|---|---|
| 谁做的 | Harvard Medical School、Beth Israel Deaconess Medical Center |
| 发在哪里 | Science |
| 样本是什么 | 76 名 Beth Israel 急诊患者 |
| 对比对象 | 两名主治医生、OpenAI o1、OpenAI 4o |
| 模型拿到什么 | 当时电子病历中的同等文本信息 |
| 数据是否加工 | 研究强调未做预处理 |
| 谁来评估 | 另外两名主治医生,且不知道诊断来自人还是 AI |
| 最突出结果 | 初诊分诊中,o1 为 67%,两名医生为 55% 和 50% |
这张表也说明了边界。
它测的是“基于电子病历文本的诊断推理”,不是完整医疗能力。影像、体征、床旁观察、病人沟通、治疗方案、抢救决策,都不能被这个结果一把罩住。
4o 也在对比对象里,但这条线索中最明确、最突出的数字是 o1 的初诊分诊结果。没有充分数据,就不要硬排座次。
76 个病例也不是一个能横扫所有医院、所有科室、所有病种的样本。它更像一根探针:扎进急诊诊断链条里最紧的一环,告诉你这里已经开始松动。
研究作者也没有声称 AI 可以直接做急诊里的生死决定。他们呼吁真实临床前瞻性试验,并指出非文本输入仍是短板。
所以,最准确的读法是:o1 在一个真实急诊样本的早期文本诊断任务中,赢了医生一次。不是全面胜利,也不是玩具级结果。
o1 赢的地方,正是医生最容易被消耗的地方
我更在意的不是 67% 本身,而是它出现的位置:初诊分诊。
初诊分诊不是坐在安静办公室里慢慢推理。它发生在噪声、等待、催促、疲劳和信息缺口里。医生拿到的常常不是完整故事,而是主诉、病史、既往记录、早期检查和一堆不稳定线索。
这恰好像大模型擅长的任务:从碎片文本里归纳、排序、列出可能路径。
AI 的强项不是温情陪诊。也不是替医生说一句“别担心”。它真正有价值的地方,是在高压环境里稳定列清单,把那些容易被忽略、但代价很高的可能性重新放回桌面。
医生会累。会被上一台抢救打断。会被拥挤急诊室的节奏拖着走。模型至少在文本推理这一段,不会因为夜班后半程少想一个危险诊断。
但这不是神化模型。
模型不会摸到病人的冷汗。不会看出一个人说话时的迟疑。不会判断家属描述里哪些是夸张,哪些是关键。更不会承担“送回家还是留下观察”背后的伦理重量。
这也是急诊 AI 最现实的定位:不是替身,而是第二诊断清单。
对临床团队来说,下一步不该是把模型接进流程就完事。更现实的做法,是先把它放在高风险、易漏诊、文本信息密集的节点上,做影子测试:医生照常决策,系统并行给出建议,事后复盘差异。
对数字健康创业者来说,这项研究也在提醒:不要把产品包装成“AI 医生”。医院更需要的是可审计的工作流工具。能记录模型输入、输出、医生是否采纳、为什么不采纳,以及事后怎么复盘。
卖一个炫目的诊断答案,没那么难。让这个答案进入医院责任链,才是真门槛。
接下来要看的不是准确率,而是谁签字
医疗体系最怕的不是工具强,而是责任模糊。
Beth Israel 的医生、研究作者 Adam Rodman 对媒体说过,现在围绕 AI 诊断还没有正式的问责框架。患者面对生死决定和复杂治疗选择时,仍然希望有人类医生引导。
这句话没有花哨处,但很要命。
模型可以给建议。可谁把建议变成医嘱?谁决定采纳或忽略?
如果 AI 提醒了一个危险诊断,医生没采纳,责任怎么算?如果医生采纳了 AI 的错误判断,医院、医生、供应商、模型开发方分别承担什么?
医疗 AI 的入场券是准确率。真正的门槛是工作流、审计、保险、监管和病人信任。
这有点像航空自动驾驶。不完全一样,但结构相似:自动化可以比人更稳定,却不能让机长消失。系统越强,人越容易依赖;人越依赖,责任边界越要写清楚。
否则技术进步会变成组织推责的新工具。
“天下熙熙,皆为利来。”这句话放到医疗 AI 上并不突兀。医院想提效率、降漏诊风险;创业公司想进流程、拿订单;模型公司想证明通用模型能进入高价值行业。动机都说得通,代价却不能被平均摊薄。
我不太买账“AI 只是辅助,所以风险不大”这种说法。
辅助系统一旦进入关键节点,就会改变人的判断习惯。它不需要拥有最终决策权,也能实际影响最终决策。
接下来最该观察的,不是又一个模型在榜单上多高几分,而是三件事:
- 医院是否愿意做前瞻性临床试验,而不是只做回顾性文本评测;
- AI 建议能否被完整记录、追踪、复盘,而不是变成一条看完即消失的提示;
- 医生是否拥有拒绝模型建议的清晰规则,而不是在事后被追问“为什么没听 AI”。
对关注 AI 医疗落地的科技读者来说,这项研究的信号很明确:医疗场景不是没有机会,但机会在窄处。先看文本诊断、分诊提醒、漏诊风险提示这些可嵌入节点,别急着相信“全科 AI 医生”。
对医院管理者和临床团队来说,更稳的动作是延后大规模采购,先做小范围验证。重点不是模型演示多漂亮,而是它能不能接进病历系统、能不能留下审计记录、能不能和现有质控流程对上。
对数字健康创业者来说,产品路线也该收一收。少讲替代医生,多讲减少漏项;少讲一键诊断,多讲复盘闭环。医院买的不是聪明回答,而是可承担的流程。
回到开头那个数字。
67% 对 55%、50%,够醒目,但还不够定案。它真正提醒我们的是:模型已经能在某些医学推理环节逼近甚至超过人类基线,而医疗体系还没有准备好回答最朴素的问题——出了事,谁站出来。
AI 可以补医生一眼。可急诊室里,最后签字的那只手,不能被算法藏起来。
