AllenAI 发布 MolmoMotion：用 3D 点轨迹预测物体下一步怎么动

核心摘要 Summary

Ai2/AllenAI 发布 MolmoMotion，并开放模型权重、MolmoMotion-1M 数据集、PointMotionBench 基准、代码和技术报告。
它不生成完整视频，也不直接控制机械臂，而是把语言指令、RGB 观察和物体 3D 查询点转成未来几秒的 3D 点轨迹。
我的判断是，它真正推进的是“可控运动信号”：对机器人规划和视频生成有用，但还没到通用物理世界模型那一步。

Ai2/AllenAI 在 6 月 17 日发布 MolmoMotion。它的输入很具体：视频帧或一段短历史、物体上的 3D 查询点，以及一句动作描述。输出也很具体：未来几秒里，这些点在 3D 空间中的轨迹。

这个设定有意思的地方在于，它不满足于回答“视频里发生了什么”。它要往前看一步：杯子会怎么被拿起，碗会被推到哪里，车或动物接下来沿什么路径动。

对机器人和视频生成来说，这一步更贵。看懂已发生运动是感知问题，预测还没发生的运动，才开始接近规划和控制。

它解决的不是生成视频，而是预测可用的运动轨迹

MolmoMotion 不是完整的视频生成模型。它也不是一个直接输出机械臂关节动作的控制器。

它做的是中间层：把语言、图像观察和物体 3D 查询点，变成一组未来 3D 点轨迹。这个中间层很克制，但也正是价值所在。

项目	MolmoMotion 的做法	对下游意味着什么
输入	RGB 观察、物体 3D 查询点、语言动作描述	比纯文本提示更容易约束细粒度运动
输出	未来几秒 3D 点轨迹	可作为机器人规划或视频生成控制信号
骨干	Molmo 2	借助视觉-语言能力理解对象和动作
变体	AR 逐步预测坐标；FM 在连续 3D 空间生成轨迹	AR 更偏确定路径，FM 更适合表达多种可能未来

这个路线避开了两类老问题。

一类是视频模型。很多模型能生成“看起来差不多”的画面，但运动容易漂。小幅移动、旋转、接触动作，尤其容易露怯。只靠提示词说“把杯子往左推一点”，控制粒度不够。

另一类是传统 3D 参数化方法。它们常绑定人体、手、刚体模板或特定类别。换到长尾物体，泛化就没那么舒服。

MolmoMotion 用稀疏 3D 点来表示运动。好处是类别绑定少，接口也清楚。代价是，它不会像网格、密集点云或物理仿真那样完整表达物体。

这也是我更在意的主线：它不是把世界模拟完，而是先把“物体下一步怎么动”抽成下游系统能用的轨迹。

真正的优势，来自 3D 点表示和自动抽取的数据

MolmoMotion-1M 来自 116 万段普通视频，覆盖 736 类运动和 5600 个物体。它不是人工逐点精标出来的数据集。

团队的做法是从普通视频里自动抽取运动物体，采样点，跟踪 2D 点，再提升到统一度量的 3D 坐标。之后还要过滤抖动和漂移，并截取真正发生运动的片段。

这解释了它为什么能做大。3D 运动标注过去很容易卡在成本上。人工标注可以更干净，但很难覆盖这么多物体和动作。

这条路更像把互联网视频转成可训练的 3D 运动语料。质量不可能天然完美，但规模、类别和动作覆盖更适合训练通用预测器。

评测用的 PointMotionBench 含 2700 个 clips，覆盖 111 类物体和 61 类运动，并经过人工验证。原文结果显示，MolmoMotion 在这个基准上超过被测既有方法，包括像素空间视频生成器、参数化 3D 方法和常速度基线。

这个对比至少说明一件事：在短时物体运动预测上，“3D 点轨迹 + 大规模自动标注数据”已经是有效组合。它不只是换了一个模型名字，而是在表示方式和数据来源上都换了路。

不过，这里也别拔太高。PointMotionBench 仍是特定基准，不能直接推出它已经解决所有真实物理交互。接触、摩擦、材质变化、复杂形变，仍要看更严的下游测试。

对机器人和视频团队，最现实的动作是什么

对机器人与具身智能研究者，MolmoMotion 的价值是降低“物体应该怎么动”的学习成本。它给的不是最终控制策略，而是可被规划器或策略模型使用的运动先验。

原文里的仿真 pick-and-place 结果是：基于 MolmoMotion 的控制策略成功率为 76.3%，高于基于 Molmo 2 的 56.0%。训练 1 万步后，前者达到 51%，后者为 19%。

这对团队决策的含义很直接：如果你正在做仿真抓取、放置、推拉、开合这类任务，可以把 MolmoMotion 当成候选运动预测模块接入评估，而不是立刻替换整套控制栈。

真实机器人部分要更谨慎。原文给的是微调后 L2 error 学习效率对比，不是宣称真实机器人任务成功率已经大幅领先。所以做硬件部署的团队，不适合只看演示就迁移。更合理的动作是先在自己的物体类别、相机视角和任务分布上跑误差与失败案例。

对视频生成和多模态模型开发者，MolmoMotion 更像一个运动控制层。把它预测出的轨迹喂给图像到视频模型，可以让生成结果更贴近动作要求。

原文称，在五项运动相关指标上，它都优于基座模型，并在其中四项超过更大的图像到视频模型。这里的启发是：单纯扩大视频模型，不一定比显式加入运动轨迹更划算。

如果团队正在做可控视频生成，最现实的选择不是马上重训大模型，而是评估两件事：现有管线能不能接 3D 点轨迹；用户要控制的动作，是否正好属于短时、物体级、路径明确的类型。

边界也必须写清楚。MolmoMotion 训练时每个物体使用 8 个查询点。这个密度足以描述很多刚体或简单关节运动，但很难密集表达复杂可形变运动。

比如衣物折叠、软体挤压、液体流动、多部件联动，8 个点就显得稀。它能给出骨架式运动线索，但不该被当成完整形变预测器。

接下来最该观察的不是演示画面顺不顺，而是三个硬变量。

自动抽取的 3D 轨迹，在长尾物体和遮挡场景里噪声能不能降下来。
下游机器人系统接入后，成功率提升是否能从仿真稳定迁移到真实任务。
视频生成模型接收 3D 点轨迹后，是否能在用户可感知的运动控制上稳定胜过纯文本提示。

如果这三点站得住，MolmoMotion 的意义就不止是一个开放模型。它会把“预测运动”这件事，推向一套可复用的数据、评测和控制接口。

回到开头那个问题：AI 是不是开始从看见运动走向预判运动？MolmoMotion 给出的答案比较克制。它没有包办物理世界，但它把下一步运动先落到了 3D 点上。路窄，反而更容易走实。

AllenAI 发布 MolmoMotion：用 3D 点轨迹预测物体下一步怎么动

MolmoMotion

核心定位

中间层

技术路线

输入约束

数据优势

百万语料

下游价值

机器人

它解决的不是生成视频，而是预测可用的运动轨迹

真正的优势，来自 3D 点表示和自动抽取的数据

对机器人和视频团队，最现实的动作是什么