移动机器人常有一道能力裂缝:底盘负责走到目标附近,机械臂负责精细操作,但两套动作很难在长任务里协调。ABot-M0.5 想把它们纳入同一个世界动作模型——让机器人预测动作如何改变环境,再据此生成控制,而不只是看见什么就立即反应。
它从三处对齐。首先引入中间潜在动作,描述局部视觉状态变化,连接视频表征与具体机器人的控制信号;其次用双层 Mixture-of-Transformers 分开处理不同模态,以及底盘移动和机械臂操作等异构动作;最后采用 dream-forcing,逐步让逆动力学——从状态变化反推动作——在模型自己预测的视频上训练,缩小训练与自回归推理之间的条件差异。
作者称,该模型在移动和精细操作基准上取得长时程任务成功率与细粒度控制精度的领先表现。不过摘要未披露具体数据、基准名称及对比幅度,现阶段更值得关注的是它对“统一”问题给出的三层拆解。