哈佛急诊研究：o1 在初诊文本诊断赢了医生一次，麻烦在谁来担责

核心摘要 Summary

哈佛医学院与 Beth Israel Deaconess Medical Center 团队在 Science 发表研究：76 个真实急诊病例的文本诊断任务里，OpenAI o1 在初诊分诊环节准确或接近准确率为 67%，高于两名主治医生的 55% 和 50%。
这不能推出“AI 取代急诊医生”，只能说明在信息残缺的文本推理环节，模型已经能补上医生可能漏掉的一眼。
真正的难题不在模型能不能给建议，而在医院怎么把建议纳入流程、审计、纠错和担责。

急诊室里，最贵的往往不是答案，而是第一眼。

哈佛医学院和 Beth Israel Deaconess Medical Center 团队这次把 76 个真实急诊病例拿来测。结果有点扎眼：在初诊分诊这个信息最少、压力最大的环节，OpenAI o1 给出准确或接近准确诊断的比例是 67%。两名主治医生分别是 55% 和 50%。

这个数字不够大，不能拿来宣布“AI 医生来了”。但它足够说明一件事：当诊断被压缩成高压、残缺、文本化的推理任务时，AI 已经不是纯展示品。医疗体系要回答的，也不再只是“模型准不准”。

更难的问题是：它说得有道理时，谁采纳？它说错时，谁负责？

这项研究真正测的是急诊文本推理

这篇研究发表在 Science。团队来自哈佛医学院和 Beth Israel Deaconess Medical Center。

研究者比较了两名主治医生、OpenAI o1 和 OpenAI 4o 在多种医学场景中的表现。最受关注的部分，是 76 名 Beth Israel 急诊患者的诊断任务。

关键点压缩一下：

问题	答案
谁做的	Harvard Medical School、Beth Israel Deaconess Medical Center
发在哪里	Science
样本是什么	76 名 Beth Israel 急诊患者
对比对象	两名主治医生、OpenAI o1、OpenAI 4o
模型拿到什么	当时电子病历中的同等文本信息
数据是否加工	研究强调未做预处理
谁来评估	另外两名主治医生，且不知道诊断来自人还是 AI
最突出结果	初诊分诊中，o1 为 67%，两名医生为 55% 和 50%

这张表也说明了边界。

它测的是“基于电子病历文本的诊断推理”，不是完整医疗能力。影像、体征、床旁观察、病人沟通、治疗方案、抢救决策，都不能被这个结果一把罩住。

4o 也在对比对象里，但这条线索中最明确、最突出的数字是 o1 的初诊分诊结果。没有充分数据，就不要硬排座次。

76 个病例也不是一个能横扫所有医院、所有科室、所有病种的样本。它更像一根探针：扎进急诊诊断链条里最紧的一环，告诉你这里已经开始松动。

研究作者也没有声称 AI 可以直接做急诊里的生死决定。他们呼吁真实临床前瞻性试验，并指出非文本输入仍是短板。

所以，最准确的读法是：o1 在一个真实急诊样本的早期文本诊断任务中，赢了医生一次。不是全面胜利，也不是玩具级结果。

o1 赢的地方，正是医生最容易被消耗的地方

我更在意的不是 67% 本身，而是它出现的位置：初诊分诊。

初诊分诊不是坐在安静办公室里慢慢推理。它发生在噪声、等待、催促、疲劳和信息缺口里。医生拿到的常常不是完整故事，而是主诉、病史、既往记录、早期检查和一堆不稳定线索。

这恰好像大模型擅长的任务：从碎片文本里归纳、排序、列出可能路径。

AI 的强项不是温情陪诊。也不是替医生说一句“别担心”。它真正有价值的地方，是在高压环境里稳定列清单，把那些容易被忽略、但代价很高的可能性重新放回桌面。

医生会累。会被上一台抢救打断。会被拥挤急诊室的节奏拖着走。模型至少在文本推理这一段，不会因为夜班后半程少想一个危险诊断。

但这不是神化模型。

模型不会摸到病人的冷汗。不会看出一个人说话时的迟疑。不会判断家属描述里哪些是夸张，哪些是关键。更不会承担“送回家还是留下观察”背后的伦理重量。

这也是急诊 AI 最现实的定位：不是替身，而是第二诊断清单。

对临床团队来说，下一步不该是把模型接进流程就完事。更现实的做法，是先把它放在高风险、易漏诊、文本信息密集的节点上，做影子测试：医生照常决策，系统并行给出建议，事后复盘差异。

对数字健康创业者来说，这项研究也在提醒：不要把产品包装成“AI 医生”。医院更需要的是可审计的工作流工具。能记录模型输入、输出、医生是否采纳、为什么不采纳，以及事后怎么复盘。

卖一个炫目的诊断答案，没那么难。让这个答案进入医院责任链，才是真门槛。

接下来要看的不是准确率，而是谁签字

医疗体系最怕的不是工具强，而是责任模糊。

Beth Israel 的医生、研究作者 Adam Rodman 对媒体说过，现在围绕 AI 诊断还没有正式的问责框架。患者面对生死决定和复杂治疗选择时，仍然希望有人类医生引导。

这句话没有花哨处，但很要命。

模型可以给建议。可谁把建议变成医嘱？谁决定采纳或忽略？

如果 AI 提醒了一个危险诊断，医生没采纳，责任怎么算？如果医生采纳了 AI 的错误判断，医院、医生、供应商、模型开发方分别承担什么？

医疗 AI 的入场券是准确率。真正的门槛是工作流、审计、保险、监管和病人信任。

这有点像航空自动驾驶。不完全一样，但结构相似：自动化可以比人更稳定，却不能让机长消失。系统越强，人越容易依赖；人越依赖，责任边界越要写清楚。

否则技术进步会变成组织推责的新工具。

“天下熙熙，皆为利来。”这句话放到医疗 AI 上并不突兀。医院想提效率、降漏诊风险；创业公司想进流程、拿订单；模型公司想证明通用模型能进入高价值行业。动机都说得通，代价却不能被平均摊薄。

我不太买账“AI 只是辅助，所以风险不大”这种说法。

辅助系统一旦进入关键节点，就会改变人的判断习惯。它不需要拥有最终决策权，也能实际影响最终决策。

接下来最该观察的，不是又一个模型在榜单上多高几分，而是三件事：

医院是否愿意做前瞻性临床试验，而不是只做回顾性文本评测；
AI 建议能否被完整记录、追踪、复盘，而不是变成一条看完即消失的提示；
医生是否拥有拒绝模型建议的清晰规则，而不是在事后被追问“为什么没听 AI”。

对关注 AI 医疗落地的科技读者来说，这项研究的信号很明确：医疗场景不是没有机会，但机会在窄处。先看文本诊断、分诊提醒、漏诊风险提示这些可嵌入节点，别急着相信“全科 AI 医生”。

对医院管理者和临床团队来说，更稳的动作是延后大规模采购，先做小范围验证。重点不是模型演示多漂亮，而是它能不能接进病历系统、能不能留下审计记录、能不能和现有质控流程对上。

对数字健康创业者来说，产品路线也该收一收。少讲替代医生，多讲减少漏项；少讲一键诊断，多讲复盘闭环。医院买的不是聪明回答，而是可承担的流程。

回到开头那个数字。

67% 对 55%、50%，够醒目，但还不够定案。它真正提醒我们的是：模型已经能在某些医学推理环节逼近甚至超过人类基线，而医疗体系还没有准备好回答最朴素的问题——出了事，谁站出来。

AI 可以补医生一眼。可急诊室里，最后签字的那只手，不能被算法藏起来。

哈佛急诊研究：o1 在初诊文本诊断赢了医生一次，麻烦在谁来担责

急诊AI

研究结果

样本有限

能力边界

适用位置

补漏价值

非替身

落地门槛

责任模糊

审计闭环

推进路径

影子测试

产品收敛

这项研究真正测的是急诊文本推理

o1 赢的地方，正是医生最容易被消耗的地方

接下来要看的不是准确率，而是谁签字