Push-T 任务里,8 个 AI 编程代理大约 2 小时跑到 99% 成功率;4 个代理约 3 小时;单代理接近 5 小时。

这个对比很有意思。它说明 AI 代理不只是会写代码,还开始进入机器人训练里的试错循环。但反常点也在这里:代理越多,实验不一定越顺。机器人经常在等代理读日志、写代码、互相总结。

NVIDIA GEAR 实验室与 Carnegie Mellon University、UC Berkeley 的研究人员发布了 ENPIRE。它不是新的机器人基础模型,也不是 NVIDIA 已经商业化的产品。更准确地说,它是一个 agent harness:给 AI 编程代理提供记忆、上下文、工具调用、约束和反馈循环,让代理能接手一部分机器人训练研发流程。

我更在意的不是“99%”这个数字本身,而是它背后的问题:机器人训练里,哪些研发循环已经能交给代理?哪些成本又会把省下来的时间吃回去?

ENPIRE 自动化的是研发试错,不是机器人智能本身

ENPIRE 做的事很具体:让代理启动实验、读日志、分析失败、改训练代码,再根据结果继续迭代。它接管的是训练闭环里的工程工作,不是让机器人凭空理解现实世界。

研究团队测试了三组编程代理:OpenAI Codex/GPT-5.5、Anthropic Claude Code/Opus 4.7、Moonshot Kimi Code/Kimi K2.6。

任务也有清晰边界。它们都是受控 manipulation tasks,包括 Push-T、插针整理、绑扎带与剪扎带,以及把 GPU 插入主板插槽后拔出复位。

对比项结果或设定能说明什么
Push-T,8 个代理约 2 小时到 99%多代理并行能加快搜索
Push-T,4 个代理约 3 小时到 99%代理规模下降,迭代变慢
Push-T,单代理接近 5 小时自动化可行,但效率有限
插针整理接近 100%,快于同团队 human-in-the-loop 方法部分人工试错流程可被代理替代
若干操作任务多代理团队最高约 99% 成功率高成功率成立,但只限文中任务

这张表比单独喊“99%”更重要。

机器人训练过去很吃人工。研究员要看失败案例,调奖励函数,改策略,盯实验结果。ENPIRE 至少表明:当任务定义清楚、硬件能复位、日志足够可读时,AI 编程代理可以成为实验助理。

但它没有证明机器人能自主学习任意现实任务。杂乱场景、长流程任务、安全约束更强的场景,仍然是另一回事。

对机器人团队和 agent 开发者,影响不一样

对机器人与具身智能团队,ENPIRE 的直接价值不是“替代研究员”。更现实的用法,是把夜间守机、重复调参、失败日志分析这类低收益工作交给代理。

动作上可以更具体一点:不要急着因为 ENPIRE 多买机械臂。更合理的顺序,是先拿一两个可自动复位的任务做迁移测试,算清楚机器人占用小时、token 成本和人工节省是否对得上。

对关注 AI agent 工程化落地的技术读者,ENPIRE 给的信号也很清楚:agent 的价值不在聊天,而在能不能进入真实工具链。记忆、上下文、约束、日志读取、代码修改、实验反馈,这些才是工程化入口。

读者可以做什么不该过度理解什么
机器人实验室 / 高校团队先选可复位、日志清楚、风险低的任务试跑 ENPIRE 类框架不要把它当成全自动机器人研究员
具身智能创业公司用它压缩重复实验时间,评估是否减少夜间值守不要在成本未算清前扩大硬件采购
AI agent 工程团队把重点放在工具调用、任务约束、反馈循环和日志可读性不要只优化对话体验

这里有个老问题:工欲善其事,必先利其器。对 agent 来说,“器”不是一个更会聊天的界面,而是一套能安全调用工具、理解实验状态、承受失败反馈的系统。

这也是 ENPIRE 比普通代码助手更值得看的一点。它把机器人训练当成一个可被代理介入的工程系统,而不是把代理当成研究员旁边的问答窗口。

成本账还卡在机器人闲置和 token 消耗

ENPIRE 的短板也很硬。

研究人员提到,物理机器人经常闲着。它在等代理读日志、写代码、调试,也在等底层语言模型响应。代理数量增加后,团队之间互相总结想法也会消耗时间。

并行资源利用不足,是另一笔账。多代理听起来像在并行搜索,但如果机器人、GPU、仿真环境和代码修改没有被充分调度起来,效率提升就会打折。

token 成本也不能忽略。代理要读日志、写总结、生成代码、复盘失败,调用次数和上下文长度都会涨。代理越多,这笔账越明显。

这会改变采购和部署判断。机械臂、GPU、传感器和场地都不便宜。如果昂贵硬件大段时间在等代理“想明白”,自动化省下的人力就可能被设备闲置抵消。

NVIDIA 研究人员称计划开源相关内容。开源后,最该看的不是演示还能不能跑高分,而是三个变量:

  • 普通实验室能不能复现同类结果;
  • token 成本加机器人占用小时,是否低于人工方案;
  • 任务换到更杂乱、更难自动复位的场景后,成功率掉多少。

NVIDIA 近期持续押注 physical AI。ENPIRE 在这条线上更底层:它不是直接造一个更强机器人,而是让“训练机器人”这件事也变成 AI 代理可介入的对象。

这条路能不能跑通,不只看模型多聪明。更要看实验室这台机器运转得是否划算。