一个右肩痛了几周的人,去诊所做了 MRI。诊所报告写得很重:肩胛下肌腱 apical insertion 处 Grade III 部分厚度撕裂,也就是超过 50% 厚度的撕裂。

治疗建议很快跟上。问题也从这里开始。

他把约 266MB、数百个 DICOM 原始文件交给 Claude Code 里的 Opus 4.8 分析。AI 的结论不是“撕裂程度较轻”,而是更直接:肌腱完整,没有看到明确撕裂。

这不能写成“AI 打脸医生”。作者没有拿到独立放射科或骨科复核,也承认自己不是医生,AI 可能错。但这事足够重要,因为它让一个普通患者第一次低成本拆开了 MRI 报告和治疗建议之间那条黑箱链路。

一次 MRI,两份结论,治疗方案开始摇晃

这件事的事实并不复杂。

问题诊所报告 / 治疗侧AI 分析侧
症状背景右肩痛 2-3 周同样基于右肩痛背景
MRI 判断肩胛下肌腱 Grade III 部分厚度撕裂初次报告称肌腱完整
复核式分析人类报告提示严重撕裂仲裁报告仍倾向轻度止点肌腱病,无明确部分或全层撕裂
治疗疑点很快启动或建议多轮治疗GPT 5.5 Pro 先标出两处可疑治疗逻辑

两处疑点最影响信任。

一是冲击波治疗。作者称超声检查时被告知没有钙化,而无钙化肩袖肌腱病通常不是冲击波治疗最典型、最有共识的适应场景。这里不能直接判定“不该做”,但至少需要医生把理由讲清楚。

二是 Traumeel。GPT 5.5 Pro 指出,Traumeel 在德国登记为无治疗适应症的顺势疗法药物。对患者来说,这不是一个小细节。它会直接改变他对治疗方案“证据强度”的判断。

Claude 这次也不是普通聊天窗口里看几张截图。作者用的是 Claude Code,让模型安装包、读取 DICOM、运行代码、做多轮影像分析。初次报告约一小时,后续对比人类报告和更多临床上下文的仲裁分析又约一小时。

这仍不等于临床诊断。MRI 判断受序列质量、体位、切面、伪影、查体结果和病史影响。肩袖、肩胛下肌腱这类结构,本来也不是“看一眼就完事”的东西。

但反常点就在这里:AI 没有更保守地附和诊所,反而更敢说“我看不到明确撕裂”。这才是这件事的钩子。

真正被挑战的,是患者只能点头的旧流程

医疗的核心商品之一,是确定感。

患者进诊室、拍片、拿报告、听方案。链条顺的时候,这套流程很有价值。专业判断替患者承担了不确定性。

可一旦报告很重、治疗很快、解释又不够细,确定感就会变味。它不再像托付,更像被推着走。

AI 插进来的位置很微妙。它没有执照,不该独立诊断,也不能承担医疗责任。但它能把影像、报告措辞、药物背景、治疗适应证拆开,让患者问出更具体的问题。

这对两类人影响最直接。

读者类型这件事意味着什么更现实的动作
关注 AI 医疗和工具链的人大模型的价值不只在聊天,而在处理真实文件、跑代码、整合上下文评估 AI 医疗产品时,别只看模型回答,要看文件处理、可追溯过程、风险提示和人类复核闭环
对影像报告和过度治疗敏感的患者AI 不能替你确诊,但能帮你准备第二意见问题清单保存 DICOM 原始文件,带着报告差异去找独立放射科或骨科复核,不要只拿 AI 结论改治疗

这个动作层面的变化很实在。

过去,二次意见贵、慢、看资源。很多患者连该问什么都不知道。现在,一个模型加工具链,至少能把“这里为什么判 Grade III”“为什么建议这个治疗”“有没有更保守选择”这些问题提前整理出来。

它不给最终裁决。它给患者一点议价能力。

“天下熙熙,皆为利来。”这句话放在医疗里要谨慎,不能拿一个案例给整个行业定罪。但只要同一个机构同时提供检查、诊断和治疗,激励结构就天然需要被看见。

不是说医生一定会过度干预。问题在于,患者有理由要求证据链更透明:影像依据在哪里,治疗适应证是什么,替代方案有没有,观察康复的风险和收益如何。

好医生不会怕这些问题。怕的是那些把专业性当护城河、把患者困在含糊话术里的流程。

接下来该看什么:不是模型赢没赢,而是复核链怎么建

我不太买账的是把这事讲成“AI 医生来了”。这太省事,也太危险。

目前只能看到结论冲突:诊所报告说有 Grade III 部分撕裂,AI 分析倾向没有明确撕裂。缺的关键一步,是独立放射科或骨科医生复核原始 DICOM,并结合查体和症状变化判断。

接下来最该观察三件事。

观察点为什么重要
独立复核是否支持诊所报告这是判断“AI 是否抓到问题”的最低门槛
治疗方案是否重新解释或调整冲击波、Traumeel、多轮治疗都需要证据和适应证说明
AI 分析过程是否可追溯医疗场景不能只看漂亮结论,要看输入文件、处理步骤、限制提示

这里有一条边界必须守住:患者不该把 AI 当终审法官。尤其是影像医学,错过撕裂和过度诊断都有代价。一个会写报告的模型,不等于一个能负责的医生。

但另一条变化也已经发生:患者不再只能在黑箱前点头。

这有点像早期互联网改变法律、金融和消费评价。它没有让普通人变成律师、投顾或质检员,却让信息不对称没那么稳了。今天的 AI 医疗工具也类似,不完全一样,但重复的是同一种权力结构:专业机构过去垄断解释权,现在解释权开始被低成本拆分。

我更在意的不是 Opus 4.8 这次到底对不对,而是它把一个更硬的问题推到了桌面上:如果患者能拿着原始影像、AI 分析和治疗疑点去问第二个医生,原来的医疗信任链还能不能只靠“你不懂,听我的”运转?

答案应该是不能。

医学的价值不会因此消失。真正会贬值的,是含糊、仓促和过度确定。报告不是圣旨,治疗也不是自动续费套餐。AI 现在做得最有意义的一件事,可能不是替医生下诊断,而是逼每一份诊断更经得起追问。