Anthropic在6月18日发布了Project Fetch第二阶段结果。最扎眼的一点是:Claude Opus 4.7在没有人类编程协助的情况下,完成了多项现成四足机器狗操作任务,速度大幅超过2025年8月第一阶段里的两支人类团队。
这个结果容易被读成“机器人要被大模型接管了”。我不太买账。它更像一次边界测试:Claude已经很会接上传感器、写控制程序、识别目标,并把这些步骤串起来;但它还没有证明自己能稳定处理最难的实时物理闭环。
实验变了:人类从主操作手退到批准命令
Project Fetch第一阶段发生在2025年8月。Anthropic把非机器人专家员工分成两组:Team Claude可以使用当时的Claude Opus 4.1,Team Claude-less只能靠互联网和自己的办法。
结果不意外。有Claude的一组更快,完成度也更高。但Opus 4.1单独上场时,连如何连接机器狗都卡住。
第二阶段换成Claude Opus 4.7。模型在Claude Code里跑了三次试验,开启adaptive thinking,并把effort设为最高。
人类没有写程序,也没有替它选方案。研究员只做四件事:把运行Claude Code的笔记本接到机器狗上,输入初始提示,批准命令,批准进入下一项任务。
| 对比项 | 2025年第一阶段 | 第二阶段 |
|---|---|---|
| 使用模型 | Claude Opus 4.1 | Claude Opus 4.7 |
| 主要工作方式 | Team Claude用模型辅助编程、调试 | Claude在Claude Code中主导执行 |
| 人类角色 | 编程、选方案、调机器人 | 接线、输入初始提示、批准命令 |
| 评估边界 | 包含人类团队的手柄操作与取球尝试 | 不包括Claude使用实体手柄,也不计入研究员用Claude写的控制器取球时间 |
| 速度结果 | Team Claude快于Team Claude-less | Opus 4.7在至少一个人类团队完成过的任务上均快10倍以上 |
在双方人类团队都完成的四项任务上,Opus 4.7平均比Team Claude-less快37倍以上,比Team Claude快18倍以上。Anthropic还提到,Opus 4.7生成的代码量接近Team Claude的十分之一,却达到相当或更好的任务完成效果。
这组数字该看,但不能放大。它只覆盖这批有限的现成机器狗操作任务,不是所有机器人任务的通用加速倍数。
Claude快在集成,不是快在“懂运动”
Claude真正拉开差距的地方,不是发明了新的机器人控制理论。它快在把机器狗当成一套可编程工具来用。
人类团队会在传感器接口、控制方式、调试路径之间来回比较。Opus 4.7能更快找到可行路径,写出能跑的代码,再用传感器反馈推进下一步。
这和过去两年AI编程工具的变化很像。工具最早只是补全代码,后来开始改文件、跑测试、调用命令行。Project Fetch把同一套代理式工作流推到了物理设备旁边。
这对两类人最直接。
AI Agent团队可以把它当成一个信号:下一批有价值的Agent,不只是在浏览器和代码仓库里跑,还会去调用相机、雷达、机械设备和控制接口。开发重心会从“模型会不会回答”转向“模型能不能安全、可回滚地调用工具”。
机器人团队也要调整预期。非机器人专家接入一台现成机器狗、读取视频和激光雷达、写目标检测脚本,过去可能要花一下午甚至一天。现在这类集成工作有机会被压到更短的调试周期。
但采购方不该因此延后所有机器人项目,等一个所谓通用机器人脑子。更现实的做法是:把大模型先用在原型验证、脚本生成、传感器接入和测试自动化上;低层控制、远程接管和安全策略仍要保留。
还没过关的,是物理世界最硬的那部分
这次实验最重要的限制,出现在“取回沙滩球”。
人类用手柄练习后,可以根据球的偏移不断修正机器狗动作,把球轻推回起点。Claude也能让机器狗移动到球后方,并尝试把球撞回去。
但它没有成功完成自主精准取回。问题不在于它不会写几行代码,而在于动作太粗,反馈不够细,策略没有稳定闭环。
代码世界可以回滚、重跑、看日志。物理世界不这么工作。球滚偏了,机器人要在感知、摩擦、碰撞、延迟和误差累积之间连续修正。
这也是这次实验不能越界解读的原因。它没有覆盖复杂低层运动控制,也没有证明Claude能训练或生成特定执行策略。研究员还保留了命令批准环节,这不是完全无人干预的端到端自主实验。
接下来最该观察的不是速度数字再翻几倍。更关键的是三件事:
- Claude能不能在更少脚手架下,自己写出针对任务的控制策略;
- 它能不能在真实环境里连续成功,而不是只完成一次可展示流程;
- 人类批准命令的环节能不能被更细的权限、安全回滚和异常检测替代。
如果这些问题过不去,大模型会成为机器人集成的强助手,而不是机器人的通用大脑。若能过关,物理Agent才算从“会调用设备”进入“会稳定干活”的工程阶段。
回到Project Fetch,最有意思的不是机器狗跑得多快,而是角色变了。人类从写代码的人,退到了接线和批准命令的人。下一道门槛也因此更清楚:会用工具之后,能不能真的控住物体。
