404 Media 报道里最刺眼的数字不是“粪便”,而是 150k+。

一名 Reddit 用户在 r/DHExchange 社区发帖,试图出售一批来自 AI 粪便分析应用 PoopCheck 的图片数据库访问权。发帖者称,这批数据包含 150k+ 张已标注、已分类的粪便图像,来自约 25K 名不同用户,可用于机器学习训练或癌症研究。

这事很容易被当成互联网怪谈。但我更在意的是另一层:健康类 AI 应用怎么收集、标注、保存身体数据,又在什么授权边界内使用这些数据。材料目前只能说明有人试图出售访问权,不能说明数据库已经完成交易,也不能说明已有第三方购买。

发生了什么:一批“尴尬图片”被包装成训练数据

r/DHExchange 是 Reddit 上一个用于寻找、交换大规模数据集的社区。PoopCheck 相关兜售帖的说法很直接:这些图片“稀有”,难以获得,有机器学习训练价值。

这句话并不荒诞。AI 健康产品缺的不只是模型,也缺带标签的数据。粪便图片看起来尴尬,但它可能指向消化状态、饮食变化、疾病风险,敏感性并不低。

把现有信息拆开看,会更清楚:

问题目前可见信息更现实的风险
数据有多大150k+ 张已标注分类图片,约 25K 名用户来源已接近可训练数据集,不是零散截图
数据来自哪里PoopCheck,由 Soft All Things 开发消费级 App 成了健康数据入口
在哪里兜售Reddit r/DHExchange 数据交易社区流转场景未必是正规科研或医疗流程
兜售理由可用于机器学习训练或癌症研究“研究用途”不能自动替代用户授权

这里的关键不是图片让人发笑,而是它们已经被整理成“有标签的数据资产”。一旦数据从原本的健康记录场景,进入训练集、交易帖、外部访问权这类语境,用户理解成本和追责成本都会上升。

为什么重要:分享、分析、训练、出售不是同一种同意

PoopCheck 的产品逻辑并不复杂。它声称用 AI 分析用户粪便照片,给出“每日肠道健康评分”。介绍中还提到,系统会使用布里斯托大便分类法和模式识别,判断粪便的一致性、颜色、形状等特征。

布里斯托大便分类法把粪便分为七类,从坚硬颗粒到水样便。它是临床和健康管理中常见的描述方式。也就是说,PoopCheck 不是单纯做恶搞图片,而是在把身体状态结构化。

产品还有社区机制。404 Media 看到,PoopCheck 设有共享粪便图片、评论和积分排行榜功能。用户可以分享图片,获取评论并赚取积分。报道也写明,图片不会在拍摄后自动公开,App 会询问用户是否分享到社区。

这个限制很重要。不能把所有 PoopCheck 用户都写成主动公开了图片。

但问题也在这里。用户同意把图片用于一次 AI 分析,不等于同意长期保存;同意发到社区,不等于同意被整理成训练集;同意参与排行榜,也不等于同意外部出售或授权访问。

这几种同意,在用户眼里常被压缩成一个按钮。在数据生意里,它们却是完全不同的权利边界。

用户动作用户可能理解数据方可能获得的价值风险点
拍照分析看一次肠道健康评分获得原始图像与分析样本是否保存、保存多久不清楚会变成问题
分享到社区让别人评论、拿积分获得可见内容和互动数据社区公开不等于外部再利用授权
被用于训练改进模型效果获得标注训练集需要更明确的二次使用边界
对外提供访问变成数据资产形成交易或授权价值用户撤回和追踪难度增加

这也是健康 AI 比普通图片 App 更麻烦的地方。心率、睡眠、月经周期,早年也常被看成个人记录。后来它们进入广告、保险、健康管理和模型训练的讨论。粪便图像只是更难堪,不是更低敏。

谁受影响:用户先观望,开发者要补授权边界

受影响最直接的是上传过图片的用户。粪便图像未必包含姓名,但可能和账号、时间、健康描述、社区评论关联。只要这些信息能互相勾连,匿名感就会变弱。

对普通用户来说,动作很简单:在这类健康 AI App 没有讲清保存周期、训练用途、删除机制之前,别把“拍照分析”当成无成本体验。尤其是带社区、排行榜、积分机制的产品,更应该先看清图片会不会进入公开或半公开流转。

对健康 App 团队来说,这件事不是公关小题。最现实的动作,是把几类数据用途拆开授权:分析、社区展示、模型训练、第三方共享,不能混在一个模糊同意里。

如果团队正在采购外部健康图像数据,也应该延后使用来源不清的数据集。至少要先确认来源、授权范围、撤回机制和是否包含敏感个人信息。便宜或稀有的数据,可能会把模型训练成本变成合规成本。

接下来最该看三件事。

  • PoopCheck 或相关方是否说明数据库来源、授权边界和删除机制。
  • 应用内社区数据与 AI 训练数据是否分开管理。
  • 应用商店和平台是否会对健康类 AI 的敏感图像数据提出更细审核要求。

现在还看不清的是监管或法律结论。现有材料没有提供隐私政策细节、公司正式回应,也没有显示监管调查结果。所以判断要压在证据以内:这不是已经坐实的大规模交易案,但它至少暴露了健康 AI 的灰色地带。

粪便图像的荒诞感,反而会遮住真正的问题。用户以为自己只是测一次健康分,产品看到的可能是训练数据,兜售者看到的则是稀缺资产。

这条线一旦接上,隐私就不再停在马桶边。