PoopCheck 被曝有人兜售 15 万张粪便图：健康 AI 的数据边界在哪

核心摘要 Summary

404 Media 报道称，PoopCheck 相关人员曾在 Reddit 数据交易社区试图出售约 15 万张已标注粪便图片的访问权，数据来源涉及约 2.5 万名用户。
目前只能确认有人兜售访问权，不能确认已经成交。
更重要的问题是：消费级健康 AI 正在把极私密的身体数据做成可标注、可训练、可报价的资产。

404 Media 报道里最刺眼的数字不是“粪便”，而是 150k+。

一名 Reddit 用户在 r/DHExchange 社区发帖，试图出售一批来自 AI 粪便分析应用 PoopCheck 的图片数据库访问权。发帖者称，这批数据包含 150k+ 张已标注、已分类的粪便图像，来自约 25K 名不同用户，可用于机器学习训练或癌症研究。

这事很容易被当成互联网怪谈。但我更在意的是另一层：健康类 AI 应用怎么收集、标注、保存身体数据，又在什么授权边界内使用这些数据。材料目前只能说明有人试图出售访问权，不能说明数据库已经完成交易，也不能说明已有第三方购买。

发生了什么：一批“尴尬图片”被包装成训练数据

r/DHExchange 是 Reddit 上一个用于寻找、交换大规模数据集的社区。PoopCheck 相关兜售帖的说法很直接：这些图片“稀有”，难以获得，有机器学习训练价值。

这句话并不荒诞。AI 健康产品缺的不只是模型，也缺带标签的数据。粪便图片看起来尴尬，但它可能指向消化状态、饮食变化、疾病风险，敏感性并不低。

把现有信息拆开看，会更清楚：

问题	目前可见信息	更现实的风险
数据有多大	150k+ 张已标注分类图片，约 25K 名用户来源	已接近可训练数据集，不是零散截图
数据来自哪里	PoopCheck，由 Soft All Things 开发	消费级 App 成了健康数据入口
在哪里兜售	Reddit r/DHExchange 数据交易社区	流转场景未必是正规科研或医疗流程
兜售理由	可用于机器学习训练或癌症研究	“研究用途”不能自动替代用户授权

这里的关键不是图片让人发笑，而是它们已经被整理成“有标签的数据资产”。一旦数据从原本的健康记录场景，进入训练集、交易帖、外部访问权这类语境，用户理解成本和追责成本都会上升。

PoopCheck 的产品逻辑并不复杂。它声称用 AI 分析用户粪便照片，给出“每日肠道健康评分”。介绍中还提到，系统会使用布里斯托大便分类法和模式识别，判断粪便的一致性、颜色、形状等特征。

布里斯托大便分类法把粪便分为七类，从坚硬颗粒到水样便。它是临床和健康管理中常见的描述方式。也就是说，PoopCheck 不是单纯做恶搞图片，而是在把身体状态结构化。

产品还有社区机制。404 Media 看到，PoopCheck 设有共享粪便图片、评论和积分排行榜功能。用户可以分享图片，获取评论并赚取积分。报道也写明，图片不会在拍摄后自动公开，App 会询问用户是否分享到社区。

这个限制很重要。不能把所有 PoopCheck 用户都写成主动公开了图片。

但问题也在这里。用户同意把图片用于一次 AI 分析，不等于同意长期保存；同意发到社区，不等于同意被整理成训练集；同意参与排行榜，也不等于同意外部出售或授权访问。

这几种同意，在用户眼里常被压缩成一个按钮。在数据生意里，它们却是完全不同的权利边界。

用户动作	用户可能理解	数据方可能获得的价值	风险点
拍照分析	看一次肠道健康评分	获得原始图像与分析样本	是否保存、保存多久不清楚会变成问题
分享到社区	让别人评论、拿积分	获得可见内容和互动数据	社区公开不等于外部再利用授权
被用于训练	改进模型效果	获得标注训练集	需要更明确的二次使用边界
对外提供访问	变成数据资产	形成交易或授权价值	用户撤回和追踪难度增加

这也是健康 AI 比普通图片 App 更麻烦的地方。心率、睡眠、月经周期，早年也常被看成个人记录。后来它们进入广告、保险、健康管理和模型训练的讨论。粪便图像只是更难堪，不是更低敏。

受影响最直接的是上传过图片的用户。粪便图像未必包含姓名，但可能和账号、时间、健康描述、社区评论关联。只要这些信息能互相勾连，匿名感就会变弱。

对普通用户来说，动作很简单：在这类健康 AI App 没有讲清保存周期、训练用途、删除机制之前，别把“拍照分析”当成无成本体验。尤其是带社区、排行榜、积分机制的产品，更应该先看清图片会不会进入公开或半公开流转。

对健康 App 团队来说，这件事不是公关小题。最现实的动作，是把几类数据用途拆开授权：分析、社区展示、模型训练、第三方共享，不能混在一个模糊同意里。

如果团队正在采购外部健康图像数据，也应该延后使用来源不清的数据集。至少要先确认来源、授权范围、撤回机制和是否包含敏感个人信息。便宜或稀有的数据，可能会把模型训练成本变成合规成本。

接下来最该看三件事。

现在还看不清的是监管或法律结论。现有材料没有提供隐私政策细节、公司正式回应，也没有显示监管调查结果。所以判断要压在证据以内：这不是已经坐实的大规模交易案，但它至少暴露了健康 AI 的灰色地带。

粪便图像的荒诞感，反而会遮住真正的问题。用户以为自己只是测一次健康分，产品看到的可能是训练数据，兜售者看到的则是稀缺资产。

这条线一旦接上，隐私就不再停在马桶边。