Clarifai确认,已删除约300万张来自OkCupid的用户照片,以及基于这些数据训练的模型。事情起于2014年,媒体在2019年曝光,FTC到2026年才与OkCupid及其母公司Match达成和解。

真正刺眼的,不是今天删了什么,而是这些照片当年为什么会被递出去。用户把照片传上约会平台,是为了展示自己,不是为了给第三方训练可推断年龄、性别、种族的人脸AI。

发生了什么:300万张照片被删,但时间线很难看

已知事实并不复杂。

根据报道、法院文件和和解相关信息,Clarifai删除了两样东西:一是约300万张OkCupid用户照片,二是基于这批数据训练的模型。FTC推动的和解,至少让这条已知数据链路被切断了。

关键时间点也很清楚:2014年索取数据,2019年因媒体报道引发FTC调查,2026年FTC与OkCupid/Match达成和解。OkCupid和Match未承认相关指控。

法院文件还给了这件事一个很具体的入口。Clarifai创始人兼CEO Matthew Zeiler当年给OkCupid联合创始人Maxwell Krohn发邮件,提到OkCupid“肯定有一大堆超棒的数据”。当时,OkCupid高管曾投资Clarifai。这不是定罪证据,但足够说明利益冲突和治理边界都很松。

关键信息已知事实这意味着什么
删除内容约300万张OkCupid用户照片;基于该数据训练的模型删掉了已知训练资产,不等于历史影响归零
数据索取时间2014年数据外流发生得很早
事件曝光2019年媒体报道后引发FTC调查不是平台主动披露,是外部揭开
监管结果2026年FTC与OkCupid/Match达成和解;未承认指控有纠偏,但追责强度有限
关系链OkCupid高管曾投资Clarifai;有索要“awesome data”的邮件问题更像治理失守,不像单点失误

这里要补一个现实限制:删除照片和模型,不等于伤害被完全修复。目前能确认的是Clarifai删除了已知数据和基于该数据训练的模型。至于历史使用痕迹、外部复制、下游扩散,至少从现有公开信息里,还看不到已经被彻底消除。

问题不在300万张照片,而在整条链路都越了界

这件事最要命的,不是数字大,而是用途变了,边界也变了。

报道显示,这批照片被用于训练可根据人脸推断年龄、性别、种族的AI工具。相关共享还涉及人口统计和位置数据。对约会平台来说,这已经不是“提升服务”能解释的范围,而是把强情境、半封闭的亲密数据,改造成另一家公司的识别燃料。

FTC的认定方向也集中在这里:这些共享行为与OkCupid自己的隐私政策不符,用户并不知情。换句话说,问题不只是AI敏感,而是再利用缺乏透明授权。

我不太买账的一种说法,是把它当成历史包袱,或者老系统时期的粗放操作。更像的情况是,平台手里有数据,AI公司需要样本,内部又有人脉和投资关系,于是边界就被顺手推开了。天下熙熙,皆为利来。技术只是工具,真正松掉的是治理。

这和公开抓取网页内容训练模型,不是同一层争议。网页内容多少还带着“公开可见”的灰区;约会平台照片、人口统计和位置数据,则更接近用户只在特定场景下交出的信息。两者都未必当然合规,但后者对信任的破坏更深。

历史上,这套路数并不新鲜。报业卖读者画像,移动应用卖位置数据,平台把服务讲成便利,把后台讲成资产。AI只是把老问题推到更敏感的地方:以前卖的是定向能力,现在炼的是识别能力。其兴也勃焉,其失信也忽焉。

对谁最重要:看训练数据的人,和盯平台权力的人

对关注AI训练数据的人,这件事的重点很直接:训练集优势从来不只是技术问题,更是来源问题。以后看到AI公司把“独家数据”当卖点,企业采购和法务最好追问三件事:数据从哪来,授权链是否完整,模型能否证明可删、可追、可审计。

这会带来实际动作。更谨慎的采购方,可能会延后采用来历说不清的人脸模型,或者把数据审计条款直接写进合同。对依赖第三方基础模型的团队,这类事件也会推动一次供应商排查,尤其是涉及身份识别、画像推断、合规审查的场景。

对关注隐私治理和平台权力的人,这件事说明了另一个老问题:平台最值钱的,不只是用户量,而是它能把用户在一个场景里的自我表达,转运到另一个用途里。约会照片本来服务于匹配,最后却进入了年龄、性别、种族推断链路。用户不知道,外界也很晚才知道。

监管的尴尬也在这里。FTC对这类首次违法,通常难直接罚款,更多是通过和解去禁止继续误导、禁止协助误导。这当然比不管要好,但力度有限。说白了,和解能要求停手、删库、改口径,却不一定能把过去的利益和代价算清。

接下来更该盯住的,不是删库声明本身,而是三件更硬的事:

  • FTC是否继续追问刻意隐瞒、调查配合和披露义务
  • 约会平台是否补做更细的第三方共享披露,尤其是照片、位置和人口统计信息
  • 企业客户是否把“训练数据可审计”当成采购门槛,而不是合规附件

如果这三件事都没有明显推进,那这次删库更像一次迟到的止损。照片删了,模型废了,激励还在。问题就还会回来。