当药物研发开始“先做人再做人”:Mantis Biotech想用数字分身填平医疗数据荒

医学行业最不缺的,可能就是“数据很重要”这句话;最缺的,则往往恰恰是真正能用的数据。
纽约初创公司 Mantis Biotech 最近抛出的想法,听上去像科幻片:为人类建立“数字孪生体”——也就是一个可模拟解剖结构、生理状态乃至行为变化的虚拟人。公司希望把教科书、动作捕捉、可穿戴传感器、训练日志、医学影像等零散信息拼起来,再借助大模型和物理引擎,生成高保真的合成数据集,用来训练预测模型。它的目标不小:从手术训练、医疗测试,到药物研发和预防性健康管理,都想插上一脚。
这家公司刚拿到 740 万美元种子轮融资,领投方是 Decibel VC,Y Combinator、Liquid 2 和几位天使投资人跟投。融资金额在今天的 AI 创业潮里算不上惊人,但它切入的问题很关键:生物医学研究不是没有数据,而是高质量、可共享、能覆盖极端情况的数据太少。
医疗 AI 的最大瓶颈,不是模型不够聪明,而是病人不够“出现”
过去几年,AI 在医疗里的叙事非常热闹:能读影像、能写病历、能辅助诊断、能加速新药发现。可一旦进入真实场景,问题就暴露了。医院数据高度碎片化,格式不统一,隐私约束极强,很多罕见病样本数量少得可怜。模型在常见病例上或许还能表现体面,但遇到边缘案例,很容易露怯。
这也是为什么“数据可得性”成了医疗 AI 的老大难。互联网行业习惯了“用户越多、数据越多、模型越强”的飞轮逻辑,可医疗不是短视频平台,不可能靠一键授权就抓取海量行为数据。患者信息不仅敏感,还牵涉伦理和监管;很多病例就算真实存在,也未必能进入公开数据集,更别说被拿来训练商业模型。
Mantis Biotech 试图绕开的,正是这个僵局。它不直接向市场兜售“我们有更多病人数据”,而是想说:我可以根据有限的真实世界信息,加上物理约束和多源知识,生成可信的虚拟样本。换句话说,它押注的是“可计算的人体”,而不是“更多被收集的人体”。这条路径的诱惑很大,因为一旦成立,意味着医学研究不必永远被真实样本数量卡住脖子。
不是简单造假数据,而是想造一个“讲物理”的虚拟人
很多人听到“合成数据”会本能警惕:这不就是 AI 自己编数据,再拿编出来的数据训练 AI 吗?如果只是这样,那确实很危险,容易在幻觉上叠幻觉。
Mantis 的说法是,它的关键层不只是大模型,而是物理引擎。公司的流程大致是:先把来自教材、运动捕捉摄像头、生物传感器、训练日志和医学影像的数据收进来,再由基于 LLM 的系统做路由、验证和综合,最后交给物理引擎去生成符合解剖学和运动学规律的高保真模型。这里的核心意思是,虚拟人不能只“像”,还得“合理”。关节怎么转,肌肉怎么发力,身体缺失一根手指后手势会怎么变化,这些都不能只靠文本统计相关性去猜。
Mantis 创始人兼 CEO Georgia Witchel 举了个很直观的例子:如果让计算机去做一个缺失手指者的手势估计,公开可用的标注数据几乎没有。但如果你有一个足够靠谱的物理模型,就能把某根手指“拿掉”,快速生成对应数据集。这件事听上去有点冷冰冰,却精准击中了医疗 AI 的痛点——现实里最难收集的,恰恰是那些少见、异常、无法标准化的大量情形。
从技术路线看,这家公司有点像把三类东西缝在一起:一部分是生成式 AI 的数据整合能力,一部分是数字孪生在工业界已经验证过的建模思路,还有一部分则来自计算生物学和生物力学。此前,数字孪生更多用在飞机发动机、工厂设备和城市基础设施上,因为这些系统可以部署传感器、持续采集数据、建立闭环。把这套方法搬到人体上,难度高了不止一个量级:人不是机器,人会疲劳、受伤、情绪波动,生活方式也会不断改变。也正因如此,这个方向一旦推进成功,价值会非常大。
为什么这家公司先在职业体育里跑通,而不是先去医院
Mantis 眼下最顺利的落地场景,不是在三甲医院,也不是制药巨头实验室,而是在职业体育,尤其是高水平运动员管理。公司称其主要客户之一是一支 NBA 球队,它会为球员建立数字表征,追踪他们在过去一年里每天的起跳表现,再与睡眠、训练负荷、抬手次数等变量做对照。
这个切口其实很聪明。职业体育是少数几个同时具备“高价值个体”“高频传感器数据”“明确预测需求”的场景。球队愿意花钱,只要能少伤一个核心球员,或者提前判断某个动作模式是否会引发跟腱风险,投入就有现实回报。相比之下,医院的数据体系更复杂,采购流程更漫长,伦理审查也更严。对于一家还在打磨产品的创业公司来说,先在体育领域证明模型有效,再向更严格的医疗和药物研发领域渗透,节奏上合理得多。
这也让我想到近几年一个常见趋势:很多“严肃医疗 AI”最终都是从相对市场化、决策链更短的旁支场景先起量,比如保险、康复、运动医学、临床文书,而不是一上来就冲击核心诊疗流程。因为真正的医疗创新,不是技术做出来就完事,它还得穿越监管、责任归属、医生接受度和支付体系这几堵墙。职业体育则像一个低压试验场,能让公司先把数字孪生这件事从 PPT 拉到真实应用里。
药物研发会因此提速吗?会,但别急着把虚拟人当成替身
Mantis 对外讲得最诱人的愿景,还是制药和 FDA 试验相关场景:如果能模拟患者对治疗的反应,就可能帮助研究人员更早筛选方案,更快理解疗效和副作用,甚至缓解临床试验样本难找的问题。这个方向为什么让资本兴奋,很简单——新药研发太贵、太慢、失败率太高了。任何能提前淘汰坏方案、缩短试验周期的技术,都有被认真对待的理由。
但我对这类故事始终有一丝保留。数字孪生体再逼真,也不能天然等于“真实人体替身”。人体不是一个完全由力学和生理参数决定的封闭系统,药物反应会受到遗传背景、合并症、环境暴露、服药依从性,甚至社会因素影响。模型可以帮助研究者缩小搜索范围、优化试验设计、补足稀缺样本,却很难在短期内彻底替代真实临床数据。
更大的争议点还在于:谁来证明这些合成数据“足够真”?如果一套数字孪生模型在某些人群上有系统偏差,它会不会把偏差包装成科学结论,反而影响医疗决策?这在罕见病、残障人群和少数族裔人群上尤其敏感。因为这些本来就是数据最稀缺、最容易被忽视的人。AI 医疗最怕的,不是没有雄心,而是把样本缺失误判成普遍规律。
当然,Witchel 的一个表述我倒觉得很有意思。她说,希望大家像小孩拿着芭比娃娃乱折腾那样去“测试”这些数字分身。这个比喻带点顽皮,但背后的想法很明确:在虚拟人体上大胆试错,总比在真实患者身上冒险更合伦理。如果这套体系真能把隐私压力和实验成本一起降下来,它确实有机会改变医学研究的前期方法论。
从行业对比看,Mantis 不是唯一在押注“虚拟患者”的公司。过去几年,做合成临床数据、模拟试验、数字病理和计算生物学的平台层出不穷,一些大药企也在内部建设自己的患者建模系统。Mantis 的差异化,似乎在于它更强调人体运动、生理行为与物理建模的结合,这让它在体育、康复、外科机器人训练等场景更有故事可讲。但接下来它必须回答两个很硬的问题:模型到底能预测到什么程度,以及这些预测能不能被医生、研究人员和监管者相信。
医疗科技行业最迷人的地方,就是它总在“人命关天”和“工程优化”之间摇摆。你会一边为技术进展兴奋,一边又不得不提醒自己:这里容错率极低。Mantis Biotech 这次融资,不意味着虚拟人马上会走进每家医院,却很可能预示着一个方向正在变清晰——未来的医学研究,可能不再只围着患者样本转,而是开始越来越依赖一个与真实世界相互校正的数字世界。
如果说工业革命教会人类先在机器上装传感器,再做预测性维护,那么 AI 时代的医疗,或许正试图对人体做同样的事。只是这一次,我们面对的不是发动机,而是人类自己。这件事,听起来很酷,也足够让人保持警惕。