机器人狗开始“看表巡检”了：波士顿动力联手谷歌，把工厂老师傅的眼力装进了 AI

人工智能 2026年4月16日

波士顿动力的 Spot 机器人狗，正在学会读压力表、温度计和液位窗，这背后是谷歌 DeepMind 新一代 Gemini Robotics-ER 1.6 模型的加持。它的重要性不在于“机器人终于会看表”这么简单，而在于工业机器人正从按剧本执行，走向在复杂现场里自主理解环境；但这一步越接近真实世界，也越考验安全、可靠性和企业愿不愿意为此买单。

机器人狗终于学会“看懂仪表”了

在工厂里，真正折磨人的工作往往不是惊天动地的大动作，而是那些枯燥、重复、却又不能出错的小事。比如巡检员走过一排设备，停下来弯腰看一眼压力表，抬头瞄一下温度计，再透过视镜确认罐体里的液位是不是正常。动作不难，但要天天做、处处做，而且还得在噪音、灰尘、热浪和各种反光环境里保持专注。

现在，波士顿动力想把这份“老师傅的眼力活”交给 Spot 机器人狗。根据 Ars Technica 报道，借助谷歌 DeepMind 最新发布的 Gemini Robotics-ER 1.6 模型，Spot 已经能够在工厂和仓库环境中读取模拟温度计、压力表等复杂仪表，还能通过 sight glass——也就是设备上的透明观察窗——完成基础视觉巡检。

别小看“读表”这件事。对人来说，这几乎是本能：看见表盘、找到刻度、对准指针、顺便识别旁边的数字和标签，几秒钟就能完成。但对机器人来说，这是一串极其复杂的视觉与推理任务：它得知道什么是指针，什么是刻度，反光是不是干扰，液面边界在哪，容器边缘在哪，文字标签是否在提示危险状态。机器人以前不是不会看，而是看得不稳定、看得不放心。工业现场最怕的，不是机器人偶尔慢一点，而是它一本正经地看错了。

从“会动”到“会理解”，机器人行业真正缺的不是腿

波士顿动力这些年最不缺的就是“会动”。无论是会跑会跳的 Spot，还是越来越像人的 Atlas，它们早就证明：机械结构、平衡控制和运动能力已经不再是最大的秀场门槛。机器人行业眼下更真实的瓶颈，是感知和理解。

说得直白一点，今天很多机器人都已经能优雅地走进工厂，但走进去之后，它到底知不知道自己看见了什么、该做什么，还是另一回事。过去工业机器人之所以高效，是因为环境被人为简化了：固定工位、固定轨迹、固定动作，最好连零件摆放角度都固定好。它们像极了顶级流水线工人，但前提是整个世界先为它们铺好了轨道。

谷歌 DeepMind 想解决的，正是这个问题。Gemini Robotics-ER 1.6 被定义为一种面向机器人的“高层推理模型”，核心不是让机器人跑得更快，而是让它在真实世界里更像一个能理解现场的执行者。报道里提到，这一代模型加入了所谓的“agentic vision”，可以理解成一种带行动性的视觉推理：模型不仅看图，还会在视觉任务中调用代码，生成一种“视觉草稿纸”，帮助自己拆解复杂画面。

这听上去有点像人类在解题时打草稿。面对一个复杂表盘，机器人不再只是“整体扫一眼”，而是能把图像拆成若干元素：边界、刻度、针尖、数字、液面位置，再一步步组合出判断结果。这也是为什么它在工业读表任务上的表现跃升明显。根据谷歌给出的数据，带有 agentic vision 的 Gemini Robotics-ER 1.6，在仪表读取任务上的准确率从前代 1.5 的 23% 提升到 98%；即便不启用这套能力，基础版也有 86% 的准确率。作为参考，Gemini 3.0 Flash 的成绩是 67%。

这组数字当然很亮眼，但我更在意的是它透露出的行业方向：机器人竞争，正在从“硬件炫技”转向“现场理解力”。谁先把复杂环境中的视觉推理做扎实，谁才更有机会拿到真正的工业订单。

为什么偏偏是巡检？因为这里最适合机器人先上岗

如果你问，为什么机器人总是先去工厂巡检，而不是直接去做更复杂的维修、装配甚至决策？答案很现实：巡检是一个风险、价值和落地难度之间相对平衡的切入口。

一方面，巡检的重复性极高。大型工厂、化工设施、能源站点、仓储中心，往往需要人员按固定线路反复查看设备状态。这个工作不一定技术含量最高，但很耗时间，也经常伴随高温、狭窄、噪声甚至一定危险性。让机器人替人先去“看一圈”，在商业上很容易讲得通。

另一方面，巡检对机器人的要求又没有高到必须像人一样灵巧。它不一定要拧阀门、换零件、拆设备，但必须看得准、记得住、传得回。Spot 这种四足机器人恰好卡在一个不错的位置：比轮式平台更能适应楼梯、坑洼和复杂地面，又不必像人形机器人那样面对过于复杂的全身控制问题。换句话说，机器人狗在工业世界里，可能比在短视频里跳舞更有前途。

波士顿动力显然也很清楚这一点。它近年一直在推动 Spot 和人形机器人进入更多工业场景，尤其是在母公司现代汽车集团的工厂体系中试点。对现代这样的制造巨头来说，机器人不是实验室玩具，而是实打实要算投入产出比的资产。会不会读表、会不会识别异常液位、会不会在多摄像头视角下判断现场情况，这些能力不花哨，却直接关系到它能不能替代一部分人工巡检。

更少幻觉，更多安全，但离“放心交班”还差最后几公里

这次 Gemini Robotics-ER 1.6 的另一个看点，是谷歌强调它比前代更少“幻觉”。报道举了个有趣的例子：新模型在一张杂乱工具图中，能更准确地数出锤子、剪刀、画笔、钳子和园艺工具；老模型不仅数不准，还会“脑补”出一个根本不存在的独轮车，只因为任务清单里提到了这个词。

这其实非常关键。聊天机器人在网页里胡说八道，最多让人翻个白眼；工业机器人在现场“脑补”一个不存在的状态，代价可就不是笑话了。它可能误报，也可能漏报。前者让维护团队白跑一趟，后者则可能让真正的故障错过最佳处理时机。

谷歌还把 1.6 称作“迄今最安全的机器人模型”，说它在遵守物理安全约束方面有明显提升，处理液体和材料时能做出更安全的选择，也更擅长识别人类受伤风险，比如儿童把异物插进插座这类场景。从技术路线看，这是机器人 AI 一个越来越明确的趋势：模型不仅要聪明，还得知道哪些事不能做，哪些动作要慢，哪些判断宁可保守一点。

但我还是想泼一盆冷水。98% 的准确率听起来很高，可工业现场不是互联网产品测试。只要剩下那 2% 恰好落在高压设备、危险管路或关键节点上，企业就不会轻易放手。更何况，准确率只是平均值，现实中还有光照变化、镜头污染、蒸汽遮挡、老旧表盘磨损、不同厂商仪表样式不统一等一大堆“脏数据”问题。机器人真正要获得工厂信任，靠的不是实验室里几张漂亮图，而是连续几个月、几千次任务都别出岔子。

工业机器人正在走向“自由活动”，这会是机会，也会是麻烦

这条新闻放在 2026 年看，格外有意思。过去两年，具身智能几乎成了 AI 圈最热的词之一。资本、模型公司、机器人公司都在讲一个共同的故事：未来机器人不该只是固定产线上的机械臂，而应该像“自由活动的员工”一样，在更开放、更复杂的空间里工作。

问题是，世界一旦不再被围栏和治具严格限定，机器人面对的就不是标准题，而是阅读理解。今天是读表，明天可能是识别漏液、发现异常震动、判断某个阀门是否处于错误状态，后天则可能是与人协同，在动态环境中执行多步骤任务。每往前一步，机器人都更像劳动力；但每往前一步，出错的影响面也更大。

这也是谷歌与波士顿动力合作值得关注的原因。它不只是一次“AI 给机器人加 buff”的演示，更像是两条路线的汇合：一边是大模型公司试图把视觉推理、代码执行、多模态理解和安全约束打包成通用能力；另一边是机器人公司努力证明，这些能力不是 PPT，而是能在钢铁、油污和水汽里活下来。

放眼行业，这也会给竞争对手施压。特斯拉的人形机器人 Optimus 讲的是通用劳动力故事；Figure、Agility Robotics、1X 等公司都在强调机器人进入真实工作场景的潜力；传统工业自动化巨头则更在乎稳定和集成。Spot 读懂表盘这件事，未必最吸睛，却可能比许多会翻跟头的演示更接近商业化核心：客户到底愿不愿意掏钱。

更值得思考的问题是，当机器人越来越像“现场判断者”，责任该怎么划分？如果它读错了表，是模型的问题、传感器的问题、部署方的问题，还是现场管理流程的问题？在 AI 走出屏幕、碰到阀门和人类之前，这些问题都不会自动消失。

我个人的判断是，巡检会成为具身智能最先跑通的一批场景之一。原因不复杂：需求刚性、ROI 明确、工作流程可量化，而且机器人即便暂时做不到 100% 自主，也可以先做人机协同——它负责走、看、报，人负责确认和决策。这比一上来就幻想“全自动机器人同事”要靠谱得多。

说到底，机器人行业真正的成熟，未必体现在某一天它像人一样说话、跑步或开门，而是体现在它终于能在一个平凡得不能再平凡的工厂角落里，老老实实把温度表读对，把压力异常看出来，然后在凌晨三点替值班工程师省下一趟危险巡线。这种进步不浪漫，却非常值钱。

Summary: Spot 学会读仪表，表面看只是机器人多了一项新技能，实质上却是工业机器人从“会执行动作”迈向“能理解现场”的关键一步。我判断，未来两三年里，读表、抄表、异常巡检这类任务会成为具身智能最先规模化落地的场景之一。不过，真正决定成败的不会是演示视频里的 98%，而是企业是否能在复杂现场中持续信任它。机器人要想成为工厂同事，先得证明自己不是一个会走路的风险源。

机器人巡检波士顿动力Spot谷歌 DeepMindGemini Robotics-ER 1.6工业机器人计算机视觉仪表识别自主环境理解安全可靠性