机器人狗开始“看表巡检”了:波士顿动力联手谷歌,把工厂老师傅的眼力装进了 AI

人工智能 2026年4月16日
机器人狗开始“看表巡检”了:波士顿动力联手谷歌,把工厂老师傅的眼力装进了 AI
波士顿动力的 Spot 机器人狗,正在学会读压力表、温度计和液位窗,这背后是谷歌 DeepMind 新一代 Gemini Robotics-ER 1.6 模型的加持。它的重要性不在于“机器人终于会看表”这么简单,而在于工业机器人正从按剧本执行,走向在复杂现场里自主理解环境;但这一步越接近真实世界,也越考验安全、可靠性和企业愿不愿意为此买单。

机器人狗终于学会“看懂仪表”了

在工厂里,真正折磨人的工作往往不是惊天动地的大动作,而是那些枯燥、重复、却又不能出错的小事。比如巡检员走过一排设备,停下来弯腰看一眼压力表,抬头瞄一下温度计,再透过视镜确认罐体里的液位是不是正常。动作不难,但要天天做、处处做,而且还得在噪音、灰尘、热浪和各种反光环境里保持专注。

现在,波士顿动力想把这份“老师傅的眼力活”交给 Spot 机器人狗。根据 Ars Technica 报道,借助谷歌 DeepMind 最新发布的 Gemini Robotics-ER 1.6 模型,Spot 已经能够在工厂和仓库环境中读取模拟温度计、压力表等复杂仪表,还能通过 sight glass——也就是设备上的透明观察窗——完成基础视觉巡检。

别小看“读表”这件事。对人来说,这几乎是本能:看见表盘、找到刻度、对准指针、顺便识别旁边的数字和标签,几秒钟就能完成。但对机器人来说,这是一串极其复杂的视觉与推理任务:它得知道什么是指针,什么是刻度,反光是不是干扰,液面边界在哪,容器边缘在哪,文字标签是否在提示危险状态。机器人以前不是不会看,而是看得不稳定、看得不放心。工业现场最怕的,不是机器人偶尔慢一点,而是它一本正经地看错了。

从“会动”到“会理解”,机器人行业真正缺的不是腿

波士顿动力这些年最不缺的就是“会动”。无论是会跑会跳的 Spot,还是越来越像人的 Atlas,它们早就证明:机械结构、平衡控制和运动能力已经不再是最大的秀场门槛。机器人行业眼下更真实的瓶颈,是感知和理解。

说得直白一点,今天很多机器人都已经能优雅地走进工厂,但走进去之后,它到底知不知道自己看见了什么、该做什么,还是另一回事。过去工业机器人之所以高效,是因为环境被人为简化了:固定工位、固定轨迹、固定动作,最好连零件摆放角度都固定好。它们像极了顶级流水线工人,但前提是整个世界先为它们铺好了轨道。

谷歌 DeepMind 想解决的,正是这个问题。Gemini Robotics-ER 1.6 被定义为一种面向机器人的“高层推理模型”,核心不是让机器人跑得更快,而是让它在真实世界里更像一个能理解现场的执行者。报道里提到,这一代模型加入了所谓的“agentic vision”,可以理解成一种带行动性的视觉推理:模型不仅看图,还会在视觉任务中调用代码,生成一种“视觉草稿纸”,帮助自己拆解复杂画面。

这听上去有点像人类在解题时打草稿。面对一个复杂表盘,机器人不再只是“整体扫一眼”,而是能把图像拆成若干元素:边界、刻度、针尖、数字、液面位置,再一步步组合出判断结果。这也是为什么它在工业读表任务上的表现跃升明显。根据谷歌给出的数据,带有 agentic vision 的 Gemini Robotics-ER 1.6,在仪表读取任务上的准确率从前代 1.5 的 23% 提升到 98%;即便不启用这套能力,基础版也有 86% 的准确率。作为参考,Gemini 3.0 Flash 的成绩是 67%。

这组数字当然很亮眼,但我更在意的是它透露出的行业方向:机器人竞争,正在从“硬件炫技”转向“现场理解力”。谁先把复杂环境中的视觉推理做扎实,谁才更有机会拿到真正的工业订单。

为什么偏偏是巡检?因为这里最适合机器人先上岗

如果你问,为什么机器人总是先去工厂巡检,而不是直接去做更复杂的维修、装配甚至决策?答案很现实:巡检是一个风险、价值和落地难度之间相对平衡的切入口。

一方面,巡检的重复性极高。大型工厂、化工设施、能源站点、仓储中心,往往需要人员按固定线路反复查看设备状态。这个工作不一定技术含量最高,但很耗时间,也经常伴随高温、狭窄、噪声甚至一定危险性。让机器人替人先去“看一圈”,在商业上很容易讲得通。

另一方面,巡检对机器人的要求又没有高到必须像人一样灵巧。它不一定要拧阀门、换零件、拆设备,但必须看得准、记得住、传得回。Spot 这种四足机器人恰好卡在一个不错的位置:比轮式平台更能适应楼梯、坑洼和复杂地面,又不必像人形机器人那样面对过于复杂的全身控制问题。换句话说,机器人狗在工业世界里,可能比在短视频里跳舞更有前途。

波士顿动力显然也很清楚这一点。它近年一直在推动 Spot 和人形机器人进入更多工业场景,尤其是在母公司现代汽车集团的工厂体系中试点。对现代这样的制造巨头来说,机器人不是实验室玩具,而是实打实要算投入产出比的资产。会不会读表、会不会识别异常液位、会不会在多摄像头视角下判断现场情况,这些能力不花哨,却直接关系到它能不能替代一部分人工巡检。

更少幻觉,更多安全,但离“放心交班”还差最后几公里

这次 Gemini Robotics-ER 1.6 的另一个看点,是谷歌强调它比前代更少“幻觉”。报道举了个有趣的例子:新模型在一张杂乱工具图中,能更准确地数出锤子、剪刀、画笔、钳子和园艺工具;老模型不仅数不准,还会“脑补”出一个根本不存在的独轮车,只因为任务清单里提到了这个词。

这其实非常关键。聊天机器人在网页里胡说八道,最多让人翻个白眼;工业机器人在现场“脑补”一个不存在的状态,代价可就不是笑话了。它可能误报,也可能漏报。前者让维护团队白跑一趟,后者则可能让真正的故障错过最佳处理时机。

谷歌还把 1.6 称作“迄今最安全的机器人模型”,说它在遵守物理安全约束方面有明显提升,处理液体和材料时能做出更安全的选择,也更擅长识别人类受伤风险,比如儿童把异物插进插座这类场景。从技术路线看,这是机器人 AI 一个越来越明确的趋势:模型不仅要聪明,还得知道哪些事不能做,哪些动作要慢,哪些判断宁可保守一点。

但我还是想泼一盆冷水。98% 的准确率听起来很高,可工业现场不是互联网产品测试。只要剩下那 2% 恰好落在高压设备、危险管路或关键节点上,企业就不会轻易放手。更何况,准确率只是平均值,现实中还有光照变化、镜头污染、蒸汽遮挡、老旧表盘磨损、不同厂商仪表样式不统一等一大堆“脏数据”问题。机器人真正要获得工厂信任,靠的不是实验室里几张漂亮图,而是连续几个月、几千次任务都别出岔子。

工业机器人正在走向“自由活动”,这会是机会,也会是麻烦

这条新闻放在 2026 年看,格外有意思。过去两年,具身智能几乎成了 AI 圈最热的词之一。资本、模型公司、机器人公司都在讲一个共同的故事:未来机器人不该只是固定产线上的机械臂,而应该像“自由活动的员工”一样,在更开放、更复杂的空间里工作。

问题是,世界一旦不再被围栏和治具严格限定,机器人面对的就不是标准题,而是阅读理解。今天是读表,明天可能是识别漏液、发现异常震动、判断某个阀门是否处于错误状态,后天则可能是与人协同,在动态环境中执行多步骤任务。每往前一步,机器人都更像劳动力;但每往前一步,出错的影响面也更大。

这也是谷歌与波士顿动力合作值得关注的原因。它不只是一次“AI 给机器人加 buff”的演示,更像是两条路线的汇合:一边是大模型公司试图把视觉推理、代码执行、多模态理解和安全约束打包成通用能力;另一边是机器人公司努力证明,这些能力不是 PPT,而是能在钢铁、油污和水汽里活下来。

放眼行业,这也会给竞争对手施压。特斯拉的人形机器人 Optimus 讲的是通用劳动力故事;Figure、Agility Robotics、1X 等公司都在强调机器人进入真实工作场景的潜力;传统工业自动化巨头则更在乎稳定和集成。Spot 读懂表盘这件事,未必最吸睛,却可能比许多会翻跟头的演示更接近商业化核心:客户到底愿不愿意掏钱。

更值得思考的问题是,当机器人越来越像“现场判断者”,责任该怎么划分?如果它读错了表,是模型的问题、传感器的问题、部署方的问题,还是现场管理流程的问题?在 AI 走出屏幕、碰到阀门和人类之前,这些问题都不会自动消失。

我个人的判断是,巡检会成为具身智能最先跑通的一批场景之一。原因不复杂:需求刚性、ROI 明确、工作流程可量化,而且机器人即便暂时做不到 100% 自主,也可以先做人机协同——它负责走、看、报,人负责确认和决策。这比一上来就幻想“全自动机器人同事”要靠谱得多。

说到底,机器人行业真正的成熟,未必体现在某一天它像人一样说话、跑步或开门,而是体现在它终于能在一个平凡得不能再平凡的工厂角落里,老老实实把温度表读对,把压力异常看出来,然后在凌晨三点替值班工程师省下一趟危险巡线。这种进步不浪漫,却非常值钱。

Summary: Spot 学会读仪表,表面看只是机器人多了一项新技能,实质上却是工业机器人从“会执行动作”迈向“能理解现场”的关键一步。我判断,未来两三年里,读表、抄表、异常巡检这类任务会成为具身智能最先规模化落地的场景之一。不过,真正决定成败的不会是演示视频里的 98%,而是企业是否能在复杂现场中持续信任它。机器人要想成为工厂同事,先得证明自己不是一个会走路的风险源。
机器人巡检波士顿动力Spot谷歌 DeepMindGemini Robotics-ER 1.6工业机器人计算机视觉仪表识别自主环境理解安全可靠性