4TB数据,逾4万名AI外包人员,平均每人2到5分钟的干净朗读语音,再配上护照或驾照扫描、自拍视频。

这不是普通的“账号泄露”。2026年4月4日,勒索组织 Lapsus$ 声称发布 Mercor 数据。需要说清楚:目前口径来自勒索组织发布和泄露样本索引,并非 Mercor 官方确认。

但如果索引描述属实,真正反常的地方已经摆在台面上:AI训练产业把一段低价劳动,顺手做成了可长期调用的身份素材库。

密码泄了可以改。声音不行。

危险不在4TB,而在语音、证件、自拍视频被绑到一起

大规模数据泄露早就不新鲜。邮箱、密码、手机号、地址,黑市里一抓一把。

这次更麻烦的是组合。

数据类型据称包含内容风险变化
身份文件护照或驾照扫描证明“这个人是谁”
自拍视频面部与活体材料增加远程核验绕过素材
干净语音安静环境朗读,约2到5分钟降低声音克隆门槛
数据绑定同一人、同一行记录攻击者不用再拼图

过去很多泄露只有录音,或者只有证件。录音难以对应真实身份,证件缺少可调用的声音。

Mercor 这类外包采集流程的风险在于,它把两件事合并了:真实身份和声音生物特征,放进同一套入职、验证、任务交付管道。

这就从“资料泄露”变成了“身份入口泄露”。

原文提到,现成语音克隆工具对干净参考音频的要求已经降到十几秒量级。Mercor 样本据称平均2到5分钟,远超这个门槛。

不能说有了声音就一定能盗钱。现实攻击还需要账户信息、流程漏洞、社工话术和目标配合。

但攻击门槛会显著下降。风控、客服、HR、财务、亲属,都会更难判断电话那头到底是不是本人。

最该紧张的,是两类人

受影响对象很清楚。

一类是参与过AI数据标注、语音录制、身份验证的外包人员。尤其是上传过证件、自拍视频、朗读音频的人。

他们要做的不是“等等看平台怎么说”,而是先降低可被调用的入口:停用银行声纹验证,至少别让它成为关键验证因素;给家人和财务联系人设置口头口令;删掉能被公开索引的公开视频、播客、会议录音;如果平台允许删除或重录声纹,尽快处理。

另一类是依赖电话、声纹或远程身份核验的金融、HR和安全负责人。

他们该做的也不复杂:把声纹从“可信身份凭证”降级成“辅助信号”;涉及工资账户变更、付款、解锁、理赔的流程,必须增加回拨、二次确认、设备校验或人工复核。不要再把“声音像本人”当成足够强的证据。

受影响对象直接风险应该立刻做的事
AI外包人员声音、证件、自拍视频被组合冒用停用声纹验证,设置家庭/财务口令,删除公开音频,处理平台声纹
银行与金融风控部分电话验证链条被削弱降低声纹权重,增加回拨和多因素验证
HR与财务团队冒充员工改工资账户、催转账敏感变更必须走书面确认和二次审批
保险与远程客服理赔、解锁、身份核验更易受冲击对高风险请求加人工复核

这里有个现实约束:不是所有银行都依赖声纹,也不是所有声纹系统都会被轻易绕过。部分美英银行仍把声纹作为验证因素之一,但它通常只是验证链条的一环。

问题在于,一环弱了,整条链都会变脆。尤其当攻击者同时拿到证件、自拍视频和声音样本时,社工骗局不再只靠话术,而是多了材料。

接下来最该观察三件事。

Mercor 是否确认泄露范围、通知受影响承包者;相关平台是否说明证件、自拍视频、声纹的保存期限和删除机制;金融与HR系统是否下调声纹在远程验证里的权重。

如果这些问题没有答案,所谓“安全修复”多半只是补服务器,不是补责任链。

问题不只在黑客,还在AI数据采集的激励

我更在意的不是 Lapsus$,而是这类AI数据采集的默认逻辑。

平台需要便宜、干净、可标注的人类数据。外包人员需要接单。于是“读几段文字”“做一次身份验证”“上传证件”被包装成低门槛任务。

每一步看着都合理。合在一起,就变成永久生物识别资产。

天下熙熙,皆为利来。放在这里很刺眼:训练数据的收益归平台、客户和模型生态,泄露后的长期身份成本却落到承包者身上。

有人会说,平台也要防欺诈,要确认承包者身份,要保证语音质量。这话成立。AI训练市场确实需要核验,不然刷单、代录、数据污染都会泛滥。

但合理核验不等于无限期持有。更不等于把证件、自拍视频、干净声纹放在同一套数据库里长期保存。

成熟系统应该默认少采集、分离存储、短周期删除、可撤回授权。生物识别材料不是普通附件,不能按“项目资料”随手归档。

这也是我不太买账的地方:很多平台把外包人员当成临时劳动力,却向他们索取接近正式雇员、甚至更高敏感度的身份材料。权利很薄,数据很重。

这不是Mercor一家公司的孤立问题。它更像AI训练产业的底层惯性:为了拿到更便宜的数据,把风险拆成无数个小任务,再分摊给议价能力最低的人。

铁路、电力、报业、互联网平台都走过类似阶段。技术扩张早期,红利先被中心化组织拿走,事故成本常常先落到边缘劳动者身上。今天不完全一样,但权力结构很像。

模型看着更强,产品反而更虚。因为底座里埋着一群人的声音、脸和证件。

一旦泄露,账单不会自动寄给训练红利的受益者。它会先寄给那些当初为几十美元任务读完几段文本的人。