机器人开始“会变通”了？Physical Intelligence 想做的，不只是一个会干活的机械臂

人工智能 2026年4月17日

旧金山机器人明星公司 Physical Intelligence 发布新模型 π0.7，声称机器人已经出现“组合式泛化”的早期迹象：面对没学过的任务，也能靠语言指导临场发挥。这件事真正重要的地方，不在于机器人会不会烤红薯，而在于机器人 AI 可能终于从“背题库”走向“会理解”，只是距离真正可商用，仍然隔着一条很长的现实鸿沟。

机器人学会的，可能不只是“照着做”

过去几年，大家看机器人演示视频，多少都有点“魔术表演后遗症”：它能翻跟头、能搬箱子、能端咖啡，但你总怀疑——是不是只会这一个动作？是不是拍视频前排练了 200 次？这也是机器人行业一直绕不开的尴尬：演示很惊艳，落地却很慢。

旧金山创业公司 Physical Intelligence 这次拿出的研究，恰恰想回答这个问题。它发布的新模型 π0.7，核心卖点不是某个花哨动作，而是一个听起来有点朴素、其实非常关键的能力：机器人能不能把已经学过的技能“拼起来”，去完成一个它从没被明确训练过的新任务。

公司给出的例子很接地气——空气炸锅。研究团队称，这个模型在训练中几乎没真正“学过”怎么使用空气炸锅，相关数据只有零星几段：一次是别的机器人把空气炸锅推上，另一次是开源数据里，有机器人按人类指令把塑料瓶放进炸锅里。结果 π0.7 竟然能据此推断这个家电大致怎么用，甚至尝试烤红薯。虽然第一次不是完美成功，但在人类一步步口头指导下，它居然真的做成了。

这个画面很容易让人想到一个刚入职的新员工：你不能说一句“去把早饭搞定”就指望他立刻出餐，但如果你站在旁边说“先拉开这个，再按那个，接着把食材放进去”，他很快就能上手。对机器人来说，这种“可以被教会”的感觉，比预先写死一切流程重要得多。

为什么行业会对这件事格外兴奋

机器人圈对“泛化”这个词已经念叨很多年了。说白了，传统机器人训练方式很像刷题：让它学会拧瓶盖，就收集一堆拧瓶盖数据；让它学会折衣服，再单独收集折衣服数据；换一个杯子、换一张桌子、换一个房间，可能又得重来。模型本质上是“任务专才”，不是“通才”。

Physical Intelligence 想证明的是，机器人可能正在跨过一道门槛：从“只会做训练集里那道题”，走向“能把多个经验重新组合”。联合创始人、伯克利教授 Sergey Levine 甚至直接把它类比为大语言模型早期那种令人意外的能力涌现——数据量增加后，模型表现不是线性变好，而是突然开始会一些“没人明确教过”的东西。

如果这个判断成立，它对机器人行业的意义非常大。因为机器人最贵的从来不是电机、关节和外壳，而是训练成本。每多一个任务，就要重新采数据、调策略、再训练，这种模式很难扩展。反过来说，如果机器人真能像语言模型那样，通过更通用的预训练和更自然的语言指导，去快速适应新环境，那么商业化路径会被彻底改写。

这也是为什么资本市场对 Physical Intelligence 如此热情。这家公司才成立两年，累计融资已超过 10 亿美元，估值做到 56 亿美元，而且据报道，新一轮融资谈判可能把估值推到 110 亿美元。对一家还没有明确商业化时间表的机器人公司来说，这个数字不只是看好，更像是一场押注：投资人押的不是某款机械臂，而是“机器人版大模型时刻”会不会出现。

但别急着把它想成《机器人总动员》

当然，新闻里最诚实的部分，恰恰是这家公司没有把自己吹成“AGI 机器人明天到家”。Levine 说得很直接：你现在还不能对它说一句“去给我烤个吐司”，然后转身走人。它暂时做不到从一个高层命令里，自主规划并完成复杂多步骤任务。可如果你愿意像教新人一样，一步一步讲，它就比较靠谱。

这句话听上去像在降温，其实反而提升了可信度。今天很多 AI 叙事的问题，不是技术没进步，而是宣传总爱把“早期迹象”包装成“全面成熟”。Physical Intelligence 在论文里用了大量谨慎措辞，比如“初步展示”“早期信号”，没有直接把研究结果说成产品能力。这种克制，在当下 AI 圈反倒显得难得。

另一个有意思、也有点黑色幽默的细节是：研究人员发现，机器人有时失败，不是因为机器人笨，而是因为人类不会提要求。一次空气炸锅实验成功率只有 5%，研究员花了半小时优化提示词，成功率就跃升到 95%。这件事像极了今天所有生成式 AI 的真实状态：模型不是完全不行，但你得学会怎么和它说话。

问题也正在这里。机器人不是聊天机器人。你让文字模型答错一题，最多浪费点时间；你让机器人误解“把这个打开”，它可能夹坏物品、碰到人、把厨房弄得一团糟。所以“提示词工程”在机器人领域到底是桥梁，还是临时拐杖，是个很现实的问题。如果一套系统必须依赖高水平操作者随时现场纠错，它离大规模部署就还有距离。

机器人版 GPT 时刻，可能会来，但不会长得像短视频爆款

Levine 预判外界批评时，说了一句很妙的话：别人总会嫌这些泛化任务“太无聊”，机器人没有后空翻。确实如此。让机器人原地后空翻，适合登上热搜；让机器人理解一台陌生空气炸锅怎么开关，镜头上平平无奇，却更接近真实世界的难题。

这其实是机器人行业长期存在的误会。过去十几年，波士顿动力塑造了“机器人很酷”的公众想象，但真正决定产业落地的，从来不是最炫技的动作，而是最稳定、最可复用、最能适应变化的能力。工厂、仓库、餐饮后厨、养老护理、家庭服务，这些场景都不需要机器人表演，它们需要的是机器人别犯低级错误，遇到新东西别完全死机。

从这个角度看，Physical Intelligence 的研究价值，甚至不在那次空气炸锅演示本身，而在研究人员自己也“猜不中”模型的边界。论文作者提到，过去他们通常很清楚训练数据里有什么，因此大致能判断模型会什么、不会什么。但最近几个月，他们开始真心感到惊讶：随手买一套齿轮，问机器人能不能转动，它居然就做到了。

这种“开发者自己开始意外”的时刻，的确很像大语言模型早期。OpenAI 当年提到 GPT-2 写出“安第斯山脉上的独角兽”故事时，也有类似震动：模型为什么会把几个奇怪概念组合得这么自然？如今，这种惊讶如果开始出现在机器人身上，就说明行业可能真的站在一个新拐点前。

但我还是要泼一点冷水。语言模型能在互联网海量文本上学习世界知识，机器人没有这个优势。物理世界的数据又贵、又难采、又难统一标注。更麻烦的是，机器人需要面对摩擦、重力、材质、空间限制和硬件误差，这些都不是“再喂点网页数据”就能补齐的。所以，机器人领域即便出现类似 LLM 的能力涌现，速度大概率也会更慢、波动更大。

真正的问题：谁来验证，什么时候落地

Physical Intelligence 这次还有一个行业层面的尴尬，它自己也承认了：机器人没有公认的标准化 benchmark。换句话说，这些成果目前主要是和自家的旧模型比较，而不是在一个所有人认可的统一考场上拿分。它说 π0.7 在做咖啡、叠衣服、组装箱子等任务上，已经能匹配过去那些针对单任务训练的专用模型，但外界很难像评测大语言模型那样迅速复核。

这会成为接下来最大的争议点之一。AI 行业最近几年已经反复证明，只看 demo 很危险。演示能说明“它有时能做到”，却很难说明“它何时稳定、为什么失败、边界在哪”。而机器人又比纯软件更脆弱：环境稍有变化，成功率就可能断崖式下降。

所以现在更值得追问的，不是“这是不是通用机器人已经来了”，而是三个更具体的问题：它在陌生环境中的成功率能否持续复现？它对语言提示和人类操作水平的依赖有多大？它能否在长时间、多步骤任务里保持稳定，而不是只在短视频长度内表现聪明？

这些问题没有一个能靠估值回答。110 亿美元的想象力，当然说明市场已经等通用机器人很久了，但物理世界不认融资额。厨房、工厂和仓库，最终只认一件事：你今天能不能稳定把活干完。

从更大的产业图景看，Figure、1X、Tesla Optimus，以及多家中国机器人公司也都在朝“通用操作”方向狂奔。大家的共识越来越明显：真正的壁垒不会只是硬件制造，而是“机器人大脑”——一种能在不同平台、不同任务、不同环境之间迁移的智能系统。Physical Intelligence 的研究，某种意义上是在给这个方向打样：也许未来赢家不是最会造一台酷炫机器人，而是最先造出一个可以迁移到千百种机器人上的通用控制模型。

这也是这条新闻让我感到兴奋的地方。不是因为机器人已经会做饭了，而是因为它终于显出一点“理解”的味道。那种味道还很淡，甚至随时可能被后续实验打脸，但只要它是真的，机器人行业就不再只是机械工程的耐力赛，而会变成一场更像 AI 的复利游戏。

Summary: 我的判断是，π0.7 还远没到“家庭机器人即将普及”的阶段，但它释放了一个非常重要的信号：机器人智能的进步，可能开始从单点突破转向可复用、可迁移的系统能力。一旦“会变通”比“会表演”更受重视，行业评价标准就会改变。未来两三年，谁能把这种泛化能力从实验室搬进真实场景，谁就有机会定义下一代机器人平台。

机器人泛化Physical Intelligenceπ0.7组合式泛化具身智能机器人学习语言指导机械臂任务规划商业落地