Ai2/AllenAI 在 6 月 17 日发布 MolmoMotion。它的输入很具体:视频帧或一段短历史、物体上的 3D 查询点,以及一句动作描述。输出也很具体:未来几秒里,这些点在 3D 空间中的轨迹。

这个设定有意思的地方在于,它不满足于回答“视频里发生了什么”。它要往前看一步:杯子会怎么被拿起,碗会被推到哪里,车或动物接下来沿什么路径动。

对机器人和视频生成来说,这一步更贵。看懂已发生运动是感知问题,预测还没发生的运动,才开始接近规划和控制。

它解决的不是生成视频,而是预测可用的运动轨迹

MolmoMotion 不是完整的视频生成模型。它也不是一个直接输出机械臂关节动作的控制器。

它做的是中间层:把语言、图像观察和物体 3D 查询点,变成一组未来 3D 点轨迹。这个中间层很克制,但也正是价值所在。

项目MolmoMotion 的做法对下游意味着什么
输入RGB 观察、物体 3D 查询点、语言动作描述比纯文本提示更容易约束细粒度运动
输出未来几秒 3D 点轨迹可作为机器人规划或视频生成控制信号
骨干Molmo 2借助视觉-语言能力理解对象和动作
变体AR 逐步预测坐标;FM 在连续 3D 空间生成轨迹AR 更偏确定路径,FM 更适合表达多种可能未来

这个路线避开了两类老问题。

一类是视频模型。很多模型能生成“看起来差不多”的画面,但运动容易漂。小幅移动、旋转、接触动作,尤其容易露怯。只靠提示词说“把杯子往左推一点”,控制粒度不够。

另一类是传统 3D 参数化方法。它们常绑定人体、手、刚体模板或特定类别。换到长尾物体,泛化就没那么舒服。

MolmoMotion 用稀疏 3D 点来表示运动。好处是类别绑定少,接口也清楚。代价是,它不会像网格、密集点云或物理仿真那样完整表达物体。

这也是我更在意的主线:它不是把世界模拟完,而是先把“物体下一步怎么动”抽成下游系统能用的轨迹。

真正的优势,来自 3D 点表示和自动抽取的数据

MolmoMotion-1M 来自 116 万段普通视频,覆盖 736 类运动和 5600 个物体。它不是人工逐点精标出来的数据集。

团队的做法是从普通视频里自动抽取运动物体,采样点,跟踪 2D 点,再提升到统一度量的 3D 坐标。之后还要过滤抖动和漂移,并截取真正发生运动的片段。

这解释了它为什么能做大。3D 运动标注过去很容易卡在成本上。人工标注可以更干净,但很难覆盖这么多物体和动作。

这条路更像把互联网视频转成可训练的 3D 运动语料。质量不可能天然完美,但规模、类别和动作覆盖更适合训练通用预测器。

评测用的 PointMotionBench 含 2700 个 clips,覆盖 111 类物体和 61 类运动,并经过人工验证。原文结果显示,MolmoMotion 在这个基准上超过被测既有方法,包括像素空间视频生成器、参数化 3D 方法和常速度基线。

这个对比至少说明一件事:在短时物体运动预测上,“3D 点轨迹 + 大规模自动标注数据”已经是有效组合。它不只是换了一个模型名字,而是在表示方式和数据来源上都换了路。

不过,这里也别拔太高。PointMotionBench 仍是特定基准,不能直接推出它已经解决所有真实物理交互。接触、摩擦、材质变化、复杂形变,仍要看更严的下游测试。

对机器人和视频团队,最现实的动作是什么

对机器人与具身智能研究者,MolmoMotion 的价值是降低“物体应该怎么动”的学习成本。它给的不是最终控制策略,而是可被规划器或策略模型使用的运动先验。

原文里的仿真 pick-and-place 结果是:基于 MolmoMotion 的控制策略成功率为 76.3%,高于基于 Molmo 2 的 56.0%。训练 1 万步后,前者达到 51%,后者为 19%。

这对团队决策的含义很直接:如果你正在做仿真抓取、放置、推拉、开合这类任务,可以把 MolmoMotion 当成候选运动预测模块接入评估,而不是立刻替换整套控制栈。

真实机器人部分要更谨慎。原文给的是微调后 L2 error 学习效率对比,不是宣称真实机器人任务成功率已经大幅领先。所以做硬件部署的团队,不适合只看演示就迁移。更合理的动作是先在自己的物体类别、相机视角和任务分布上跑误差与失败案例。

对视频生成和多模态模型开发者,MolmoMotion 更像一个运动控制层。把它预测出的轨迹喂给图像到视频模型,可以让生成结果更贴近动作要求。

原文称,在五项运动相关指标上,它都优于基座模型,并在其中四项超过更大的图像到视频模型。这里的启发是:单纯扩大视频模型,不一定比显式加入运动轨迹更划算。

如果团队正在做可控视频生成,最现实的选择不是马上重训大模型,而是评估两件事:现有管线能不能接 3D 点轨迹;用户要控制的动作,是否正好属于短时、物体级、路径明确的类型。

边界也必须写清楚。MolmoMotion 训练时每个物体使用 8 个查询点。这个密度足以描述很多刚体或简单关节运动,但很难密集表达复杂可形变运动。

比如衣物折叠、软体挤压、液体流动、多部件联动,8 个点就显得稀。它能给出骨架式运动线索,但不该被当成完整形变预测器。

接下来最该观察的不是演示画面顺不顺,而是三个硬变量。

  • 自动抽取的 3D 轨迹,在长尾物体和遮挡场景里噪声能不能降下来。
  • 下游机器人系统接入后,成功率提升是否能从仿真稳定迁移到真实任务。
  • 视频生成模型接收 3D 点轨迹后,是否能在用户可感知的运动控制上稳定胜过纯文本提示。

如果这三点站得住,MolmoMotion 的意义就不止是一个开放模型。它会把“预测运动”这件事,推向一套可复用的数据、评测和控制接口。

回到开头那个问题:AI 是不是开始从看见运动走向预判运动?MolmoMotion 给出的答案比较克制。它没有包办物理世界,但它把下一步运动先落到了 3D 点上。路窄,反而更容易走实。