一个家政工人上门打扫,头上戴着摄像头帽子,手上可能还有触觉设备。你可以付全价,不录;也可以接受折扣,让这次服务变成机器人训练数据的一部分。
这不是科幻片开头。硅谷创业公司 Human Archive 正在印度推进这门生意。它刚融了 820 万美元,投资方包括 Wing Venture Capital、NVP、YC,以及来自 OpenAI、Nvidia、Google、Meta 等相关背景的天使投资人。
融资额本身不大。真正刺眼的是,物理 AI 的数据缺口,开始伸进普通人的厨房、客厅和酒店后厨。
Human Archive 卖的不是录像,是劳动的多模态轨迹
Human Archive 的模式很直接:让服务业工人佩戴设备,记录他们在真实场景里怎样干活,再把这些数据卖给机器人和物理 AI 实验室。
| 关键信息 | 目前可见事实 |
|---|---|
| 公司 | Human Archive,创始团队有 UC Berkeley 和 Stanford 研究背景 |
| 融资 | 820 万美元,投资方包括 Wing Venture Capital、NVP、YC 等 |
| 场景 | 印度家庭服务、餐饮、酒店;也有东南亚和美国早期试点 |
| 设备 | 1000 多个活跃头戴设备,50 多种设备 |
| 数据 | RGB-D、触觉、动作捕捉、腕部/胸部摄像等 |
| 客户 | 面向物理 AI、机器人实验室销售数据;AI 实验室和大学有兴趣 |
| 争议 | 工人报酬、家庭隐私、用户同意、折扣是否转移成本 |
这里的关键词不是“视频”。普通视频对机器人训练价值有限。
Human Archive 要卖的是同步数据:人眼看到什么,手碰到什么,身体怎么动,力怎么施加,深度信息如何变化。
机器人难学的也不是“看见杯子”。难的是拿杯子时手腕怎么转,擦湿桌面时力道怎么变,在狭小厨房里怎样避让。
大模型吃网页。物理 AI 吃世界。
这对关注 AI 和机器人产业链的读者很现实:如果你在做机器人、仿真、具身智能或数据采购,接下来会更谨慎地看数据来源,而不是只看数据量。采购会更在意三个问题:采集场景是否真实,传感器是否同步,授权链条是否扛得住审查。
对关心平台经济和隐私的人,影响更直接:家庭服务的边界变了。一次打扫、一次上门维修、一次酒店后厨劳动,都可能变成 AI 数据生产的一环。
物理 AI 缺的不是口号,是能规模化的脏活数据
过去两年,物理 AI 的叙事很热。机器人做饭、叠衣服、进工厂、进家庭,听起来都像下一轮平台机会。
卡点一直很硬:数据。
互联网上有海量文字、图片、视频,可以喂给语言模型和视觉模型。现实世界里的动作数据不一样。它需要真实场景、连续动作、多传感器同步,还要能标注、能复用、能规模化。
这就是 Human Archive 的切口。
它不是第一个想采第一视角劳动数据的公司。印度也有其他团队在工厂等场景做类似采集。Human Archive 的不同,是把赌注压在印度服务业零工网络上:人多,场景碎,任务丰富,成本低。
这几个词加在一起,既是商业吸引力,也是风险源头。
公司称,它通过小型服务平台合作,给消费者一个选择:接受折扣并同意录制,或支付全价不录制。公司还称合同符合印度 DPDP 法案,会展示隐私政策和同意说明,数据会匿名化并模糊人脸。
这些措施有意义。不能假装它什么都没做。
但隐私从来不只是一张同意书。
家庭空间不是办公室,也不是工厂。厨房、卧室门口、老人孩子、墙上照片、谈话声、房间布局,都可能进入画面。人脸模糊能处理一部分风险,却很难把“生活痕迹”彻底抹掉。
印度电子和信息技术部已经关注这类项目的同意机制与数据采集实践。这个信号不小。监管盯的不是一个摄像头,而是“折扣换授权”这套机制能不能算真正知情同意。
接下来最该观察的变量也很清楚:
- 工人每小时 1 美元的采集报酬会不会上调,是否有更透明的分成或退出机制;
- 用户同意页面是否足够具体,能否明确说明采什么、卖给谁、保留多久;
- 大型平台会不会继续拒绝,还是在合规压力降低后重新进入。
如果这三点没有改善,物理 AI 数据采购团队就会面临延后合作、改用封闭场景数据、转向自建采集网络的选择。数据便宜,不等于可用;授权链条脆,后面会变成模型和产品的合规债。
折扣、同意和外包,是一套熟悉的旧戏法
更微妙的是钱。
Human Archive 给参与采集的工人支付基础报酬:每小时 1 美元。报道称,其他公司类似采集大约支付每小时 2.63 到 4.20 美元。Human Archive 承认竞争对手给得更高,但认为自己在印度本地有地面网络,所以能降低补偿。
| 对象 | 得到什么 | 承担什么 |
|---|---|---|
| AI 实验室 | 真实世界多模态数据 | 数据合规与来源风险 |
| Human Archive | 可销售的数据资产 | 平台、监管和舆论压力 |
| 消费者 | 折扣服务 | 家庭空间被记录的隐私风险 |
| 工人 | 每小时 1 美元额外收入 | 佩戴设备、流程被记录、议价能力弱 |
| 服务平台 | 潜在新收入 | 用户信任和品牌风险 |
公司和投资方的说法不难理解:这给工人提供了灵活收入,是普通人参与 AI 经济的入口。
这个说法不能直接打成违法或剥削。很多零工确实需要额外收入,平台也确实可能创造新机会。
问题在议价能力。
消费者拿折扣。AI 实验室拿数据。创业公司拿估值。工人拿 1 美元一小时,还要接受被设备约束、被流程记录、被绩效化理解的成本。家庭用户则用一点折扣,交换一次很难判断后果的数据授权。
“天下熙熙,皆为利来。”这句话放在这里并不玄。AI 数据链条上的每个人都在算账,只是有些人的账本更厚,有些人的代价更隐形。
还有一个细节很说明问题:Human Archive 说自己与多个伙伴合作,但包括 Urban Company、Pronto 在内的一些印度大型家庭服务公司拒绝了合作。Pronto 承认有过接触但没有推进;Urban Company CEO 也公开表示不会参与这类安排。
头部平台不傻。它们知道这里有商业机会,也知道风险会反噬品牌。一旦用户觉得“我家变成机器人训练场”,信任成本可能比数据收入更贵。
我更在意的是,物理 AI 的数据采购会不会复制上一代互联网的老路:先用“自愿参与”和“服务折扣”降低阻力,再用规模化需求把弱势一端变成默认供给。
这和早年互联网抓取公开网页不完全一样。今天有隐私法,有监管,有舆论,也有平台主动拒绝。
但商业激励仍然很硬:谁能更便宜、更连续、更大量地拿到真实世界数据,谁就可能在机器人训练上占先。
分水岭就在这里。
如果 Human Archive 真能建立合规、透明、补偿合理的数据采集网络,它会成为物理 AI 产业链里重要的底层供应商。多模态真实劳动数据确实稀缺,价值也真实。
如果这套模式主要靠低价劳动力、模糊同意和家庭折扣跑起来,它训练出的不只是机器人,还有一套更精细的数据外包秩序。
机器人还没真正走进普通家庭,普通家庭已经先被拿来训练机器人了。
