机器人开始“会变通”了?Physical Intelligence 想做的,不只是一个会干活的机械臂

人工智能 2026年4月17日
机器人开始“会变通”了?Physical Intelligence 想做的,不只是一个会干活的机械臂
旧金山机器人明星公司 Physical Intelligence 发布新模型 π0.7,声称机器人已经出现“组合式泛化”的早期迹象:面对没学过的任务,也能靠语言指导临场发挥。这件事真正重要的地方,不在于机器人会不会烤红薯,而在于机器人 AI 可能终于从“背题库”走向“会理解”,只是距离真正可商用,仍然隔着一条很长的现实鸿沟。

机器人学会的,可能不只是“照着做”

过去几年,大家看机器人演示视频,多少都有点“魔术表演后遗症”:它能翻跟头、能搬箱子、能端咖啡,但你总怀疑——是不是只会这一个动作?是不是拍视频前排练了 200 次?这也是机器人行业一直绕不开的尴尬:演示很惊艳,落地却很慢。

旧金山创业公司 Physical Intelligence 这次拿出的研究,恰恰想回答这个问题。它发布的新模型 π0.7,核心卖点不是某个花哨动作,而是一个听起来有点朴素、其实非常关键的能力:机器人能不能把已经学过的技能“拼起来”,去完成一个它从没被明确训练过的新任务。

公司给出的例子很接地气——空气炸锅。研究团队称,这个模型在训练中几乎没真正“学过”怎么使用空气炸锅,相关数据只有零星几段:一次是别的机器人把空气炸锅推上,另一次是开源数据里,有机器人按人类指令把塑料瓶放进炸锅里。结果 π0.7 竟然能据此推断这个家电大致怎么用,甚至尝试烤红薯。虽然第一次不是完美成功,但在人类一步步口头指导下,它居然真的做成了。

这个画面很容易让人想到一个刚入职的新员工:你不能说一句“去把早饭搞定”就指望他立刻出餐,但如果你站在旁边说“先拉开这个,再按那个,接着把食材放进去”,他很快就能上手。对机器人来说,这种“可以被教会”的感觉,比预先写死一切流程重要得多。

为什么行业会对这件事格外兴奋

机器人圈对“泛化”这个词已经念叨很多年了。说白了,传统机器人训练方式很像刷题:让它学会拧瓶盖,就收集一堆拧瓶盖数据;让它学会折衣服,再单独收集折衣服数据;换一个杯子、换一张桌子、换一个房间,可能又得重来。模型本质上是“任务专才”,不是“通才”。

Physical Intelligence 想证明的是,机器人可能正在跨过一道门槛:从“只会做训练集里那道题”,走向“能把多个经验重新组合”。联合创始人、伯克利教授 Sergey Levine 甚至直接把它类比为大语言模型早期那种令人意外的能力涌现——数据量增加后,模型表现不是线性变好,而是突然开始会一些“没人明确教过”的东西。

如果这个判断成立,它对机器人行业的意义非常大。因为机器人最贵的从来不是电机、关节和外壳,而是训练成本。每多一个任务,就要重新采数据、调策略、再训练,这种模式很难扩展。反过来说,如果机器人真能像语言模型那样,通过更通用的预训练和更自然的语言指导,去快速适应新环境,那么商业化路径会被彻底改写。

这也是为什么资本市场对 Physical Intelligence 如此热情。这家公司才成立两年,累计融资已超过 10 亿美元,估值做到 56 亿美元,而且据报道,新一轮融资谈判可能把估值推到 110 亿美元。对一家还没有明确商业化时间表的机器人公司来说,这个数字不只是看好,更像是一场押注:投资人押的不是某款机械臂,而是“机器人版大模型时刻”会不会出现。

但别急着把它想成《机器人总动员》

当然,新闻里最诚实的部分,恰恰是这家公司没有把自己吹成“AGI 机器人明天到家”。Levine 说得很直接:你现在还不能对它说一句“去给我烤个吐司”,然后转身走人。它暂时做不到从一个高层命令里,自主规划并完成复杂多步骤任务。可如果你愿意像教新人一样,一步一步讲,它就比较靠谱。

这句话听上去像在降温,其实反而提升了可信度。今天很多 AI 叙事的问题,不是技术没进步,而是宣传总爱把“早期迹象”包装成“全面成熟”。Physical Intelligence 在论文里用了大量谨慎措辞,比如“初步展示”“早期信号”,没有直接把研究结果说成产品能力。这种克制,在当下 AI 圈反倒显得难得。

另一个有意思、也有点黑色幽默的细节是:研究人员发现,机器人有时失败,不是因为机器人笨,而是因为人类不会提要求。一次空气炸锅实验成功率只有 5%,研究员花了半小时优化提示词,成功率就跃升到 95%。这件事像极了今天所有生成式 AI 的真实状态:模型不是完全不行,但你得学会怎么和它说话。

问题也正在这里。机器人不是聊天机器人。你让文字模型答错一题,最多浪费点时间;你让机器人误解“把这个打开”,它可能夹坏物品、碰到人、把厨房弄得一团糟。所以“提示词工程”在机器人领域到底是桥梁,还是临时拐杖,是个很现实的问题。如果一套系统必须依赖高水平操作者随时现场纠错,它离大规模部署就还有距离。

机器人版 GPT 时刻,可能会来,但不会长得像短视频爆款

Levine 预判外界批评时,说了一句很妙的话:别人总会嫌这些泛化任务“太无聊”,机器人没有后空翻。确实如此。让机器人原地后空翻,适合登上热搜;让机器人理解一台陌生空气炸锅怎么开关,镜头上平平无奇,却更接近真实世界的难题。

这其实是机器人行业长期存在的误会。过去十几年,波士顿动力塑造了“机器人很酷”的公众想象,但真正决定产业落地的,从来不是最炫技的动作,而是最稳定、最可复用、最能适应变化的能力。工厂、仓库、餐饮后厨、养老护理、家庭服务,这些场景都不需要机器人表演,它们需要的是机器人别犯低级错误,遇到新东西别完全死机。

从这个角度看,Physical Intelligence 的研究价值,甚至不在那次空气炸锅演示本身,而在研究人员自己也“猜不中”模型的边界。论文作者提到,过去他们通常很清楚训练数据里有什么,因此大致能判断模型会什么、不会什么。但最近几个月,他们开始真心感到惊讶:随手买一套齿轮,问机器人能不能转动,它居然就做到了。

这种“开发者自己开始意外”的时刻,的确很像大语言模型早期。OpenAI 当年提到 GPT-2 写出“安第斯山脉上的独角兽”故事时,也有类似震动:模型为什么会把几个奇怪概念组合得这么自然?如今,这种惊讶如果开始出现在机器人身上,就说明行业可能真的站在一个新拐点前。

但我还是要泼一点冷水。语言模型能在互联网海量文本上学习世界知识,机器人没有这个优势。物理世界的数据又贵、又难采、又难统一标注。更麻烦的是,机器人需要面对摩擦、重力、材质、空间限制和硬件误差,这些都不是“再喂点网页数据”就能补齐的。所以,机器人领域即便出现类似 LLM 的能力涌现,速度大概率也会更慢、波动更大。

真正的问题:谁来验证,什么时候落地

Physical Intelligence 这次还有一个行业层面的尴尬,它自己也承认了:机器人没有公认的标准化 benchmark。换句话说,这些成果目前主要是和自家的旧模型比较,而不是在一个所有人认可的统一考场上拿分。它说 π0.7 在做咖啡、叠衣服、组装箱子等任务上,已经能匹配过去那些针对单任务训练的专用模型,但外界很难像评测大语言模型那样迅速复核。

这会成为接下来最大的争议点之一。AI 行业最近几年已经反复证明,只看 demo 很危险。演示能说明“它有时能做到”,却很难说明“它何时稳定、为什么失败、边界在哪”。而机器人又比纯软件更脆弱:环境稍有变化,成功率就可能断崖式下降。

所以现在更值得追问的,不是“这是不是通用机器人已经来了”,而是三个更具体的问题:它在陌生环境中的成功率能否持续复现?它对语言提示和人类操作水平的依赖有多大?它能否在长时间、多步骤任务里保持稳定,而不是只在短视频长度内表现聪明?

这些问题没有一个能靠估值回答。110 亿美元的想象力,当然说明市场已经等通用机器人很久了,但物理世界不认融资额。厨房、工厂和仓库,最终只认一件事:你今天能不能稳定把活干完。

从更大的产业图景看,Figure、1X、Tesla Optimus,以及多家中国机器人公司也都在朝“通用操作”方向狂奔。大家的共识越来越明显:真正的壁垒不会只是硬件制造,而是“机器人大脑”——一种能在不同平台、不同任务、不同环境之间迁移的智能系统。Physical Intelligence 的研究,某种意义上是在给这个方向打样:也许未来赢家不是最会造一台酷炫机器人,而是最先造出一个可以迁移到千百种机器人上的通用控制模型。

这也是这条新闻让我感到兴奋的地方。不是因为机器人已经会做饭了,而是因为它终于显出一点“理解”的味道。那种味道还很淡,甚至随时可能被后续实验打脸,但只要它是真的,机器人行业就不再只是机械工程的耐力赛,而会变成一场更像 AI 的复利游戏。

Summary: 我的判断是,π0.7 还远没到“家庭机器人即将普及”的阶段,但它释放了一个非常重要的信号:机器人智能的进步,可能开始从单点突破转向可复用、可迁移的系统能力。一旦“会变通”比“会表演”更受重视,行业评价标准就会改变。未来两三年,谁能把这种泛化能力从实验室搬进真实场景,谁就有机会定义下一代机器人平台。
机器人泛化Physical Intelligenceπ0.7组合式泛化具身智能机器人学习语言指导机械臂任务规划商业落地