美国人拿 AI 当“家庭医生”，医院却想把聊天机器人塞进病历入口

人工智能 2026年4月15日

当越来越多美国人把 ChatGPT 一类工具当作健康顾问时，医院系统并没有选择踩刹车，而是选择自己下场做聊天机器人。这看上去像是医疗数字化的顺势而为，但更像是一场在医疗资源不足、患者焦虑和 AI 幻觉之间展开的危险平衡术。

当病人不再先找医生，而是先问 AI

美国医疗体系这些年有一个越来越明显的现实：很多人不是不想看医生，而是看不起、约不上，或者根本没有固定的家庭医生。于是，那个原本应该在诊室里发生的第一轮问答，正在悄悄转移到手机屏幕上。人们头疼、失眠、皮疹、胸闷，先去问的不是医生，而是大模型。

这并不奇怪。KFF 最近的一项调查显示，三分之一的美国成年人已经用过 AI 聊天机器人获取健康信息。更让人心里一紧的是，其中 41% 的人会把自己的化验结果、病史之类的个人医疗信息直接上传给 AI。很多人使用它的理由也很现实：19% 是因为看病太贵，18% 是因为没有固定医疗服务提供者，或者根本约不到号。还有 65% 的人，理由朴素得不能再朴素——他们只是想快点得到一个答案。

问题就出在这里。一个“快速答案”在医疗场景里，有时是安慰，有时是误导。它可能让人少跑一趟医院，也可能让人错过该去急诊的时机。可在现实里，焦虑的人往往更愿意相信那个 24 小时在线、语气坚定、永远不显得疲惫的聊天窗口。AI 在这里像极了一位“态度特别好”的分诊护士，只不过它并没有执照，也不承担传统意义上的责任。

医院的算盘：既然拦不住，不如自己做一个

面对患者已经集体涌向通用 AI 的趋势，美国医院系统的反应很有意思：与其让病人去问互联网上那些不受控的工具，不如医院自己推出“院内版”聊天机器人，把问诊、分诊、预约和病历入口都留在自己的系统里。

这就是 Hartford HealthCare 与 K Health 推出的 PatientGPT 背后的逻辑。医院管理层的表述很漂亮：这是为了“在患者所在的地方服务患者”，提高数字公平性，提供 7×24 小时帮助，并且比公共 AI 更安全，因为它能连到病历和护理团队。说白了，医院看到了两件事：第一，患者已经在用 AI；第二，如果这个入口不可避免，那医院希望这个入口掌握在自己手里。

从商业和运营角度看，这一步甚至称得上聪明。PatientGPT 有两个模式：一个是常规问答，一个是偏“医疗接诊”的模式。患者输入症状后，系统会越来越少闲聊，转而按照临床流程图收集信息，最后给出下一步建议，比如约基层医疗、去急诊或者立即寻求紧急救治。如果建议后者，机器人甚至会停止继续对话，避免把高风险场景聊成“客服咨询”。

这其实暴露出医院真正想解决的问题：不是让 AI 替代医生，而是把大量本该由人工完成、却又高度重复的前置工作自动化。谁来回答“这个检查结果是什么意思”“我这个症状应该挂什么科”“现在要不要去急诊”这类问题？如果这些问题都靠人力，医院成本高、响应慢；如果全交给开放式 AI，风险又太大。于是，医院选择了第三条路：把聊天机器人包装成医疗服务入口。

问题是，AI 在真实世界里的医疗表现，远没宣传里那么稳

医疗 AI 这几年最尴尬的地方，不是实验室成绩差，而是“台上表现”和“真实使用”之间有巨大的落差。牛津大学研究团队今年在《自然·医学》发表的一项研究就很说明问题。研究者给 GPT-4o、Llama 3 和 Command R+ 提供标准化病情描述时，这些模型识别疾病的准确率可以达到约 95%。听上去相当惊艳。

可一旦换成真实用户自己提问，情况迅速打回原形：模型帮助用户正确识别病情的比例，只剩下大约三分之一；对“下一步该怎么办”给出正确指引的比例也只有 43%。换句话说，模型不只是“会不会答”的问题，还有“用户能不能问对”的问题。医疗不是标准化考试，真正的患者并不知道哪些症状重要、哪些时间线关键、哪些背景信息必须说。很多人描述病情时像在讲故事，而不是在填病历表。

这也是为什么医院版 AI 即便接入病历、流程图和临床路径，也不能自动变成可靠医生。它最多只是比野生聊天机器人多了一点上下文，多了一点边界感。Hartford 自己公布的一份尚未同行评审的预印本研究称，经过不断压力测试后，系统在高风险场景下的失败率从 30% 降到 8.5%。这个数字当然比 30% 好看得多，但如果把它翻译成人话：每 100 次高风险场景里，仍可能有 8 到 9 次出错。医疗里，尤其是急症、胸痛、中风、精神危机这类场景，8.5% 不是一个让人轻松的数字。

更麻烦的是，AI 不只会“答错”，还可能一本正经地吸收错误信息。就在最近，瑞典研究人员故意编造了一种根本不存在的皮肤病“bixonimania”，并上传两篇假的研究论文，结果多个大模型很快就开始煞有介事地和用户讨论这种疾病。这件事像个黑色幽默：如果连不存在的病都能被模型说得像真的，那么普通患者又该如何判断一个听起来很专业的解释，到底是医学知识，还是语言幻觉？

更谨慎的路线：不是看病机器人，而是“病历解说员”

并不是所有医院都敢把 AI 直接推进“症状分诊”这个高风险地带。电子病历巨头 Epic 推出的 Emmie，就明显保守得多。它通过 MyChart 这样的患者门户上线，定位更像一个“医疗助手”：帮患者整理就诊议程、解释化验结果、总结病历里已有的信息，回答一些后续问题。

Sutter Health 在介绍 Emmie 时说得很直白：它可以回答一般性健康问题，也可以查找和总结病历中已经可见的信息，但它不提供个性化医疗建议，也不做护理决策，更不能代替医生判断。这种边界划得相当清楚，某种程度上也反映出行业里更务实的一派思路——先把 AI 用在信息解释和流程导航上，而不是诊断和治疗建议上。

我个人反而更看好这种克制的产品路线。因为医疗场景里最常见、也最让患者沮丧的问题，未必总是“我得了什么病”，而是“检查单为什么这么写”“医生说的这个术语是什么意思”“我下一步该挂谁”“上次开药记录到底在哪”。AI 如果能把这些复杂、分散、晦涩的医疗信息翻译成人话，它已经很有价值。它未必要扮演医生，先学会当一个靠谱的医疗翻译，可能更现实。

对很多偏远地区医院来说，这种工具还有一层现实意义。像 Reid Health 这样服务农村社区的医疗系统，本来就面临医生稀缺、服务半径大、患者教育不足的问题。一个嵌在医院门户里的 AI 助手，至少能在两次就诊之间，给患者一个不会打烊的解释窗口。它未必治病，但它能减少迷路。

真正值得警惕的，不是医院用了 AI，而是我们开始习惯“先问机器人，再决定要不要看病”

这场变化之所以重要，不只是因为医院上线了几个聊天机器人，而是因为它暴露了一个更深层的趋势：AI 正在悄悄变成医疗体系的前门。它先接住焦虑，再把一部分人导向医院，把另一部分人挡在门外。这里面不仅有技术问题，还有权力问题、责任问题，甚至是公共卫生问题。

医院高管喜欢说，这是“以消费者为中心”的医疗。听起来没毛病，但“消费者”这个词本身就很微妙。它意味着医疗服务被进一步平台化、界面化、流程化。患者体验当然可能更顺滑，可一旦 AI 成为流量入口，医院会不会更倾向于把它做成一个导诊漏斗，而不是一个真正中立的健康顾问？如果一个机器人既负责回答问题，又负责把你导向院内服务，它到底是在帮你，还是在帮医院完成患者转化？

此外，责任边界也远没有想象中清楚。PatientGPT 说自己会持续监控，试点期间曾人工审查每一次互动，扩大规模后则变成每天人工抽查 20 条，其余交给另一个 AI 监控，再每 1000 段对话做一轮批量研究。这个安排很像今天很多互联网平台治理内容的方式：先上线，再抽检，再优化。但医疗不是内容平台，漏掉一个高风险案例，代价可能不是用户投诉，而是延误治疗。

从更长远看，这股趋势很可能会蔓延到美国之外。只要一个国家存在挂号难、医生少、患者教育不足、医疗信息难懂这些问题，医院版 AI 助手就会显得很有诱惑力。中国读者对这种场景恐怕也不陌生：在线问诊、导诊机器人、电子病历摘要、检验报告解读，过去几年都已经出现过类似尝试。差别不在于有没有，而在于边界划得够不够清楚，监管跟不跟得上，以及医院有没有诚实地告诉患者：这不是医生，这是一个会说话的软件。

AI 当然可能改善医疗体验，尤其是在解释、导航、随访、提醒这些环节。但如果它被当成修补美国医疗体系裂缝的万能胶，结局多半不会太美。真正的问题从来不是“缺不缺一个聊天机器人”，而是为什么这么多人在生病时，最先能得到帮助的不是医生，而是一个语言模型。

Summary: 我对医院版医疗 AI 的判断是：它会留下来，而且会越来越多，但真正能跑通的不会是“AI 替医生看病”，而是“AI 替医院做解释、分流和连接”。短期内，最成功的产品大概率是像 Emmie 这样边界克制的助手，而不是野心更大的分诊机器人。未来两三年，监管、责任认定和真实世界疗效数据会决定这条赛道是变成医疗服务升级，还是变成又一轮被包装过度的技术泡沫。

医疗AIChatGPT聊天机器人健康信息咨询电子病历大模型AI幻觉美国医疗体系KFF个人医疗信息