404 Media 报道里最刺眼的数字不是“粪便”,而是 150k+。
一名 Reddit 用户在 r/DHExchange 社区发帖,试图出售一批来自 AI 粪便分析应用 PoopCheck 的图片数据库访问权。发帖者称,这批数据包含 150k+ 张已标注、已分类的粪便图像,来自约 25K 名不同用户,可用于机器学习训练或癌症研究。
这事很容易被当成互联网怪谈。但我更在意的是另一层:健康类 AI 应用怎么收集、标注、保存身体数据,又在什么授权边界内使用这些数据。材料目前只能说明有人试图出售访问权,不能说明数据库已经完成交易,也不能说明已有第三方购买。
发生了什么:一批“尴尬图片”被包装成训练数据
r/DHExchange 是 Reddit 上一个用于寻找、交换大规模数据集的社区。PoopCheck 相关兜售帖的说法很直接:这些图片“稀有”,难以获得,有机器学习训练价值。
这句话并不荒诞。AI 健康产品缺的不只是模型,也缺带标签的数据。粪便图片看起来尴尬,但它可能指向消化状态、饮食变化、疾病风险,敏感性并不低。
把现有信息拆开看,会更清楚:
| 问题 | 目前可见信息 | 更现实的风险 |
|---|---|---|
| 数据有多大 | 150k+ 张已标注分类图片,约 25K 名用户来源 | 已接近可训练数据集,不是零散截图 |
| 数据来自哪里 | PoopCheck,由 Soft All Things 开发 | 消费级 App 成了健康数据入口 |
| 在哪里兜售 | Reddit r/DHExchange 数据交易社区 | 流转场景未必是正规科研或医疗流程 |
| 兜售理由 | 可用于机器学习训练或癌症研究 | “研究用途”不能自动替代用户授权 |
这里的关键不是图片让人发笑,而是它们已经被整理成“有标签的数据资产”。一旦数据从原本的健康记录场景,进入训练集、交易帖、外部访问权这类语境,用户理解成本和追责成本都会上升。
为什么重要:分享、分析、训练、出售不是同一种同意
PoopCheck 的产品逻辑并不复杂。它声称用 AI 分析用户粪便照片,给出“每日肠道健康评分”。介绍中还提到,系统会使用布里斯托大便分类法和模式识别,判断粪便的一致性、颜色、形状等特征。
布里斯托大便分类法把粪便分为七类,从坚硬颗粒到水样便。它是临床和健康管理中常见的描述方式。也就是说,PoopCheck 不是单纯做恶搞图片,而是在把身体状态结构化。
产品还有社区机制。404 Media 看到,PoopCheck 设有共享粪便图片、评论和积分排行榜功能。用户可以分享图片,获取评论并赚取积分。报道也写明,图片不会在拍摄后自动公开,App 会询问用户是否分享到社区。
这个限制很重要。不能把所有 PoopCheck 用户都写成主动公开了图片。
但问题也在这里。用户同意把图片用于一次 AI 分析,不等于同意长期保存;同意发到社区,不等于同意被整理成训练集;同意参与排行榜,也不等于同意外部出售或授权访问。
这几种同意,在用户眼里常被压缩成一个按钮。在数据生意里,它们却是完全不同的权利边界。
| 用户动作 | 用户可能理解 | 数据方可能获得的价值 | 风险点 |
|---|---|---|---|
| 拍照分析 | 看一次肠道健康评分 | 获得原始图像与分析样本 | 是否保存、保存多久不清楚会变成问题 |
| 分享到社区 | 让别人评论、拿积分 | 获得可见内容和互动数据 | 社区公开不等于外部再利用授权 |
| 被用于训练 | 改进模型效果 | 获得标注训练集 | 需要更明确的二次使用边界 |
| 对外提供访问 | 变成数据资产 | 形成交易或授权价值 | 用户撤回和追踪难度增加 |
这也是健康 AI 比普通图片 App 更麻烦的地方。心率、睡眠、月经周期,早年也常被看成个人记录。后来它们进入广告、保险、健康管理和模型训练的讨论。粪便图像只是更难堪,不是更低敏。
谁受影响:用户先观望,开发者要补授权边界
受影响最直接的是上传过图片的用户。粪便图像未必包含姓名,但可能和账号、时间、健康描述、社区评论关联。只要这些信息能互相勾连,匿名感就会变弱。
对普通用户来说,动作很简单:在这类健康 AI App 没有讲清保存周期、训练用途、删除机制之前,别把“拍照分析”当成无成本体验。尤其是带社区、排行榜、积分机制的产品,更应该先看清图片会不会进入公开或半公开流转。
对健康 App 团队来说,这件事不是公关小题。最现实的动作,是把几类数据用途拆开授权:分析、社区展示、模型训练、第三方共享,不能混在一个模糊同意里。
如果团队正在采购外部健康图像数据,也应该延后使用来源不清的数据集。至少要先确认来源、授权范围、撤回机制和是否包含敏感个人信息。便宜或稀有的数据,可能会把模型训练成本变成合规成本。
接下来最该看三件事。
- PoopCheck 或相关方是否说明数据库来源、授权边界和删除机制。
- 应用内社区数据与 AI 训练数据是否分开管理。
- 应用商店和平台是否会对健康类 AI 的敏感图像数据提出更细审核要求。
现在还看不清的是监管或法律结论。现有材料没有提供隐私政策细节、公司正式回应,也没有显示监管调查结果。所以判断要压在证据以内:这不是已经坐实的大规模交易案,但它至少暴露了健康 AI 的灰色地带。
粪便图像的荒诞感,反而会遮住真正的问题。用户以为自己只是测一次健康分,产品看到的可能是训练数据,兜售者看到的则是稀缺资产。
这条线一旦接上,隐私就不再停在马桶边。
