自动驾驶最缺的不是模型，而是“找数据的人”：Nomadic 融资 840 万美元，盯上机器人时代最脏最累的活

人工智能 2026年3月31日

自动驾驶和机器人行业这些年一直在拼模型、拼算力、拼传感器，但真正卡住进度的，往往是那堆没人来得及整理的视频数据。Nomadic 最新拿下 840 万美元种子轮融资，瞄准的正是这块“脏活累活”——把海量机器人影像变成可搜索、可训练、可用于排查边缘场景的数据资产。我更愿意把它看成 physical AI 产业链里正在浮出水面的关键基础设施，而不只是又一家“AI 标注公司”。

当自动驾驶车队跑起来，真正先崩溃的往往是数据团队

过去几年，自动驾驶行业总给人一种很“未来”的感觉：激光雷达、端到端模型、城市 NOA、机器人出租车，听上去都像科幻片里的标准配置。但如果你问一线工程师，最磨人的工作是什么，答案未必是训练大模型，反而可能是——回看录像。

一辆自动驾驶汽车、一个仓储机器人，甚至一台自主施工设备，每天都会吐出海量视频和传感器数据。问题不在于“有没有数据”，而在于“数据太多，多到几乎没人看得完”。企业会收集成千上万小时，甚至上百万小时的影像，但其中绝大多数最后都躺进档案库吃灰。Nomadic 联合创始人 Mustafa Bal 的说法很直接：很多客户 95% 的车队数据都沉在归档系统里，实际没有被有效利用。

这正是 Nomadic 想解决的问题。它的新一轮 840 万美元种子融资，由 TQ Ventures 领投，Pear VC、谷歌首席科学家 Jeff Dean 参投，投后估值达到 5000 万美元。钱不算天文数字，但在当下这个融资环境里，足够说明一件事：资本开始重新关注那些不那么性感、却真正决定自动驾驶和机器人研发效率的基础设施公司。

比起“再训练一个大模型”，行业更需要把稀有场景捞出来

Nomadic 的核心思路并不神秘：用一组视觉语言模型，把原本凌乱的视频内容转成结构化、可搜索的数据集。说白了，就是让机器先看一遍录像，再告诉你“你想找的东西在哪儿”。

这件事为什么重要？因为自动驾驶最值钱的数据，从来都不是那些平平无奇的直道巡航，而是少见、诡异、足以让系统犯错的边缘场景。比如，红灯亮着，但交警在路口挥手示意你通过；再比如，你想找出所有车辆驶过某一种桥梁下方的片段，用来验证模型在复杂遮挡环境下的表现。过去，这些工作常常要靠人工团队一帧一帧筛。即便外包给标注公司，成本和时间也都相当惊人。

Nomadic 想做的，不只是“自动标注”。按照 CTO Varun Krishnan 的说法，它更像一个“具备代理式推理能力的系统”：工程师描述自己要找什么，系统再决定如何调用多个模型，把动作、场景和上下文一起理解出来。这个表述当然带点创业公司的锋利营销味道，但它也点中了一个行业变化：physical AI 的数据处理，正在从“框框点点的标注工厂”，升级为“语义检索 + 多模型推理 + 数据工作流”的组合系统。

这背后还有一个更现实的行业趋势。今天做机器人、自动驾驶、工业自动化的公司，已经不满足于“我有很多数据”，而是越来越在意“我能否快速找出那 0.1% 最关键的数据”。从研发效率看，这比盲目继续堆采集车、堆传感器，更接近真正的胜负手。

这门生意听起来像标注，实际上更像机器人行业的“数据操作系统”

Nomadic 已经有一些颇具分量的客户，包括 Zoox、三菱电机、Natix Network 和 Zendar。Zendar 工程副总裁 Antonio Puglielli 的评价也很典型：与其把大量工作外包出去，不如直接用工具把流程做快，而且 Nomadic 懂这个领域本身，这一点比纯通用型 AI 工具更重要。

我认同这个判断。因为自动驾驶和机器人行业有个长期被低估的事实：通用 AI 工具未必天然适合物理世界。你可以让大模型写出一段不错的 Python，也可以让它总结会议纪要，但要让它理解“这次变道到底是否符合车辆动力学”“机械臂夹爪在这一瞬间的精确位置在哪里”，难度完全不是一个量级。物理世界的数据，不止要识别“看到了什么”，还要回答“发生了什么”“为什么发生”“对控制系统意味着什么”。

Nomadic 现在就在往这条更难的路上走。团队正在做一些更专门化的工具，比如从摄像头视频里理解车辆变道的物理过程，或从画面中更准确地推断机器人夹爪的位置。这些能力如果真的成熟，价值就不再只是替代人工标注，而是进一步进入模型评估、强化学习数据构建、车队监控和合规审计这些核心流程。

这也是为什么投资方 TQ Ventures 会拿 Salesforce 和 Netflix 做比喻：一家自动驾驶公司当然可以自己做内部数据系统，但当你开始自己搭整套基础设施，你就已经偏离了最核心的竞争点——把机器人本身做好。这个逻辑很像云计算早年的专业分工：不是每家互联网公司都要自建数据中心，未来可能也不是每家机器人公司都该自研一整套智能数据整理平台。

赛道已经开始拥挤，但真正的门槛才刚刚出现

当然，Nomadic 也不是在一片真空中起跑。Scale、Kognic、Encord 这些老牌数据标注和数据引擎公司，都在往 AI 自动化方向推进；英伟达也推出了开源模型家族 Alpamayo，希望帮助开发者处理自动驾驶和机器人数据。换句话说，这不是一个没人看见的蓝海，而是一个大家都意识到必须解决的问题。

那 Nomadic 的机会在哪里？我觉得有两点。其一，是垂直场景的专注度。自动驾驶和机器人不是普通视频理解，它们涉及物理约束、时序关系、动作因果、长尾事件，这要求产品设计和模型训练都贴着行业需求走。其二，是工作流整合能力。真正有价值的产品，不是单点识别准确率多高，而是能不能把“检索—筛选—验证—回流训练管线”这一串流程打通。企业要的不是一个会看视频的 demo，而是一条能接进生产系统的数据高速公路。

但话说回来，这个赛道也有隐忧。第一，基础模型能力越来越强，未来通用多模态模型会不会把一部分能力商品化、平价化？第二，大客户最终会不会选择自建，尤其是那些数据安全要求高、算力资源充足的头部自动驾驶公司？第三，今天 Nomadic 重点处理的是视频，下一步还得啃更难的骨头：激光雷达、雷达、IMU，以及多模态传感器之间的对齐和联合理解。

Bal 自己也承认，这件事“难得离谱”：要搬运 TB 级视频、调用大量百亿参数模型，再从中提取可用且准确的洞察。这不是做个聊天机器人界面就能糊过去的生意，而是很吃工程、很吃系统优化、也很吃行业 know-how 的硬仗。

机器人时代的竞争，正在从“谁更聪明”转向“谁更会利用经验”

Nomadic 两位创始人出身也挺有意思：哈佛计算机本科同学，之后分别在 Lyft、Snowflake 等公司工作，又在不同岗位上反复撞见同一个问题——现实世界系统最麻烦的，不是没有数据，而是数据太碎、太乱、太难用。这类创业故事听多了容易麻木，但放在当下 physical AI 的时间点上，它确实踩得很准。

自动驾驶行业经历过几轮起伏后，今天大家对“万能模型一把梭”的热情明显冷静了不少。车企、机器人公司、供应商都更清楚一件事：现实世界不是互联网，线上模型出错可以刷新页面，线下机器出错可能就是剐蹭、停摆，甚至安全事故。于是，行业开始重新重视评测、回灌、异常检索和数据闭环——也就是那些过去看起来没那么光鲜的基础工作。

从这个角度看，Nomadic 的融资消息之所以有意思，不只是因为它又拿了一笔钱，而是它映照出一个更大的行业转向：大家终于意识到，机器人时代真正稀缺的，也许不是更多传感器，不是更多采集车，而是把经验沉淀成可检索、可复用、可训练的数据能力。

如果说大模型正在成为机器的大脑，那么像 Nomadic 这样的公司，更像是在帮行业建立记忆系统。一个只会“思考”却记不住经验的机器人，永远长不大。

这门生意未必最喧闹，却很可能最接近自动驾驶和机器人真正落地时的底层现实。未来几年，我们大概会看到越来越多公司把注意力从“怎么做更大的模型”挪到“怎么把已有数据真正用起来”。而在这个过程中，谁能把海量视频和传感器碎片变成可靠的训练燃料，谁就更有机会成为 physical AI 时代真正的卖水人。

Summary: 我对 Nomadic 的判断是：它踩中的不是一个短期热点，而是机器人产业迟早要补上的基础课。自动驾驶、仓储机器人、工业设备越走向规模化，数据整理、异常检索和训练闭环就越不可能继续靠人海战术。接下来真正决定这家公司上限的，不是它能不能再讲一个漂亮的 AI 故事，而是它能否把视频之外的激光雷达和多模态传感器也吃下来。如果做得到，它可能会成为 physical AI 领域很关键的一层基础设施；如果做不到，它就容易沦为又一家被大模型平台挤压的垂直工具公司。

自动驾驶Nomadic机器人数据标注视频数据种子轮融资physical AITQ VenturesJeff Dean边缘场景