Push-T 任务里,8 个 AI 编程代理大约 2 小时跑到 99% 成功率;4 个代理约 3 小时;单代理接近 5 小时。
这个对比很有意思。它说明 AI 代理不只是会写代码,还开始进入机器人训练里的试错循环。但反常点也在这里:代理越多,实验不一定越顺。机器人经常在等代理读日志、写代码、互相总结。
NVIDIA GEAR 实验室与 Carnegie Mellon University、UC Berkeley 的研究人员发布了 ENPIRE。它不是新的机器人基础模型,也不是 NVIDIA 已经商业化的产品。更准确地说,它是一个 agent harness:给 AI 编程代理提供记忆、上下文、工具调用、约束和反馈循环,让代理能接手一部分机器人训练研发流程。
我更在意的不是“99%”这个数字本身,而是它背后的问题:机器人训练里,哪些研发循环已经能交给代理?哪些成本又会把省下来的时间吃回去?
ENPIRE 自动化的是研发试错,不是机器人智能本身
ENPIRE 做的事很具体:让代理启动实验、读日志、分析失败、改训练代码,再根据结果继续迭代。它接管的是训练闭环里的工程工作,不是让机器人凭空理解现实世界。
研究团队测试了三组编程代理:OpenAI Codex/GPT-5.5、Anthropic Claude Code/Opus 4.7、Moonshot Kimi Code/Kimi K2.6。
任务也有清晰边界。它们都是受控 manipulation tasks,包括 Push-T、插针整理、绑扎带与剪扎带,以及把 GPU 插入主板插槽后拔出复位。
| 对比项 | 结果或设定 | 能说明什么 |
|---|---|---|
| Push-T,8 个代理 | 约 2 小时到 99% | 多代理并行能加快搜索 |
| Push-T,4 个代理 | 约 3 小时到 99% | 代理规模下降,迭代变慢 |
| Push-T,单代理 | 接近 5 小时 | 自动化可行,但效率有限 |
| 插针整理 | 接近 100%,快于同团队 human-in-the-loop 方法 | 部分人工试错流程可被代理替代 |
| 若干操作任务 | 多代理团队最高约 99% 成功率 | 高成功率成立,但只限文中任务 |
这张表比单独喊“99%”更重要。
机器人训练过去很吃人工。研究员要看失败案例,调奖励函数,改策略,盯实验结果。ENPIRE 至少表明:当任务定义清楚、硬件能复位、日志足够可读时,AI 编程代理可以成为实验助理。
但它没有证明机器人能自主学习任意现实任务。杂乱场景、长流程任务、安全约束更强的场景,仍然是另一回事。
对机器人团队和 agent 开发者,影响不一样
对机器人与具身智能团队,ENPIRE 的直接价值不是“替代研究员”。更现实的用法,是把夜间守机、重复调参、失败日志分析这类低收益工作交给代理。
动作上可以更具体一点:不要急着因为 ENPIRE 多买机械臂。更合理的顺序,是先拿一两个可自动复位的任务做迁移测试,算清楚机器人占用小时、token 成本和人工节省是否对得上。
对关注 AI agent 工程化落地的技术读者,ENPIRE 给的信号也很清楚:agent 的价值不在聊天,而在能不能进入真实工具链。记忆、上下文、约束、日志读取、代码修改、实验反馈,这些才是工程化入口。
| 读者 | 可以做什么 | 不该过度理解什么 |
|---|---|---|
| 机器人实验室 / 高校团队 | 先选可复位、日志清楚、风险低的任务试跑 ENPIRE 类框架 | 不要把它当成全自动机器人研究员 |
| 具身智能创业公司 | 用它压缩重复实验时间,评估是否减少夜间值守 | 不要在成本未算清前扩大硬件采购 |
| AI agent 工程团队 | 把重点放在工具调用、任务约束、反馈循环和日志可读性 | 不要只优化对话体验 |
这里有个老问题:工欲善其事,必先利其器。对 agent 来说,“器”不是一个更会聊天的界面,而是一套能安全调用工具、理解实验状态、承受失败反馈的系统。
这也是 ENPIRE 比普通代码助手更值得看的一点。它把机器人训练当成一个可被代理介入的工程系统,而不是把代理当成研究员旁边的问答窗口。
成本账还卡在机器人闲置和 token 消耗
ENPIRE 的短板也很硬。
研究人员提到,物理机器人经常闲着。它在等代理读日志、写代码、调试,也在等底层语言模型响应。代理数量增加后,团队之间互相总结想法也会消耗时间。
并行资源利用不足,是另一笔账。多代理听起来像在并行搜索,但如果机器人、GPU、仿真环境和代码修改没有被充分调度起来,效率提升就会打折。
token 成本也不能忽略。代理要读日志、写总结、生成代码、复盘失败,调用次数和上下文长度都会涨。代理越多,这笔账越明显。
这会改变采购和部署判断。机械臂、GPU、传感器和场地都不便宜。如果昂贵硬件大段时间在等代理“想明白”,自动化省下的人力就可能被设备闲置抵消。
NVIDIA 研究人员称计划开源相关内容。开源后,最该看的不是演示还能不能跑高分,而是三个变量:
- 普通实验室能不能复现同类结果;
- token 成本加机器人占用小时,是否低于人工方案;
- 任务换到更杂乱、更难自动复位的场景后,成功率掉多少。
NVIDIA 近期持续押注 physical AI。ENPIRE 在这条线上更底层:它不是直接造一个更强机器人,而是让“训练机器人”这件事也变成 AI 代理可介入的对象。
这条路能不能跑通,不只看模型多聪明。更要看实验室这台机器运转得是否划算。
