BMJ在2026年4月24日报道,英国大型健康数据慈善机构UK Biobank称,4月20日在中国电商网站阿里巴巴发现3个出售其志愿者数据的列表。至少一个列表包含全部约50万名志愿者的数据。

现在能确认的是:数据被发现出现在售卖列表里。还不能确认的是:数据从哪里流出、谁上传、是否有人购买、平台后续如何处置。把它直接写成“UK Biobank内部系统被黑”,证据不够。

但这件事已经够严重。公益科研项目沉淀出的健康数据,被放进跨境交易场景。开放科研吃到数据红利,最难撤回代价的却是捐出身体数据的志愿者。

卖的不是账号资料,是身体履历

BMJ披露的字段范围很宽。它不是普通邮箱、手机号或会员积分库,而是一套能描出个人健康轨迹的数据包。

类别BMJ披露的数据类型主要风险
基础特征性别、年龄、出生年月、社会经济状态可与外部数据拼接,提高再识别概率
行为与心理生活习惯、心理健康、自报病史可用于画像、定价、筛选
身体与认知认知功能、体测指标涉及能力、健康状态和长期变化
样本测量血液、生化、代谢组、蛋白组数据高维数据越多,匿名化越脆弱
疾病结局ICD编码疾病结局、癌症诊断日期可能暴露长期疾病轨迹

这里要克制一点:摘要没有明确说完整基因组数据被出售,不能把它扩写成“基因组全量泄露”。但即便没有完整基因组,现有字段也足够敏感。

健康数据和密码不一样。密码泄露了还能改,出生年月、癌症诊断日期、代谢组特征改不了。更麻烦的是,这类数据会随着AI训练、药物研发、保险精算和风险定价继续升值。

对志愿者来说,现实动作很有限。他们很难像换银行卡一样“换掉”自己的健康史,只能等待UK Biobank说明范围、路径和补救措施。真正的无力感就在这里:受影响最大的人,通常最晚拿到可操作信息。

严重性在匿名化失效,也在科研信任缩水

大型生物医学数据库靠一个前提运转:志愿者相信机构会把数据用于受控科研,而不是让它流向陌生买家。UK Biobank尤其典型。它积累约50万名英国志愿者的长期健康、样本和疾病结局数据,并服务全球研究。

匿名化不是护身符。低维数据还能靠脱敏降低风险;高维健康数据更像拼图。年龄、出生年月、疾病时间、蛋白组、代谢组、癌症诊断日期叠在一起,重新识别的难度会下降。

这和早年的消费互联网泄露不同。酒店会员库、社交账号库泄露,常见后果是诈骗、撞库和骚扰。生物医学数据一旦进入灰色链条,可能流向保险、雇佣、信贷、药企数据中介或AI训练。个人很难发现,更难证明自己被区别对待。

“天下熙熙,皆为利来。”这句话放在这里不玄。志愿者交出的是科研信任,市场重新标价的是可交易资产。阿里巴巴只是此次被发现的售卖场所,不能写成国家行为或地缘政治阴谋;真正该追问的是,受控科研数据为什么会被摆上商品货架。

受影响的不止志愿者。使用UK Biobank的科研机构也会付成本:访问审查更严,跨境数据流转更慢,第三方处理链条会被要求解释得更细。依赖公共信任的生物医学数据项目也会被拖下水,因为公众不会细分哪家治理好、哪家治理差。

对医疗数据和AI训练数据治理的读者,这件事意味着一个很实际的判断:不要只看数据规模,要看权限、审计、再分发限制和退出机制。对参与大型生物医学数据库的研究者和医疗机构,短期动作也很明确:延后不必要的数据下载,复核本团队的本地副本、外包分析、云端存储和研究者账号权限。别等监管来问,才发现数据流向自己也说不清。

接下来别看道歉,看审计链条

这类事件最容易滑向一句空话:加强管理。那没用。真正要看的,是UK Biobank能不能把数据流出路径讲清楚。

接下来有四个观察点:

  • 售卖列表是否仍可访问,平台是否有下架或协查动作;
  • UK Biobank能否说明数据来自哪条访问链:研究者下载、第三方处理、云端存储,还是其他环节;
  • 是否公开访问审计范围,包括哪些机构、哪些账号、哪些数据包曾被导出;
  • 监管机构是否要求其更新权限控制、再分发规则和违规追责机制。

这里有个现实约束:数据一旦被复制,后续很难彻底追回。监管能追责,平台能下架,机构能封禁账号,但已经离开受控环境的数据,不会因为公告而自动消失。

我更在意的不是这次谁写道歉信,而是谁能拿出可验证的治理能力。生物样本库的护城河不是“我有50万人”,而是“50万人为什么还愿意继续相信我”。铁路、电力、报业、互联网平台都经历过类似阶段:扩张时讲公共利益,出事后才补治理账。不完全一样,但利益结构很像。规模先跑,规则后追,最后由用户和参与者替系统惯性买单。

这次事件给行业划了一条冷线。开放科研不是把数据无限复制,公益项目也不能靠道德光环抵扣安全债。样本量会吸引论文、资金和合作;治理能力决定下一批志愿者还敢不敢伸出胳膊、交出病历、等待随访。