RSS 2026｜蚂蚁灵波提出首个自回归因果世界模型，50条数据解锁通用机器人操控

AIGC动态3小时前发布 almosthuman2014

51 0 0

RSS 2026｜蚂蚁灵波提出首个自回归因果世界模型，50条数据解锁通用机器人操控

文章摘要

赋予机器人物理理解和预测能力是实现通用操作的核心挑战。针对现有视觉语言动作模型缺乏显式物理过程建模、难以处理长程规划以及视频生成模型推理延迟过高等问题，蚂蚁灵波科技等机构提出了一种名为LingBot-VA的自回归视频动作世界模型。该模型创新性地将视频动态预测与动作推理统一在自回归框架下，使机器人能够先预测视觉世界的演变，再基于预测推断具体动作，从而将物理因果结构深度融入控制中。

在架构设计上，LingBot-VA采用混合Transformer架构，将视频流和动作流解耦并交错处理，通过高容量视频专家预测未来视觉状态，同时利用轻量级动作专家推断一致动作。这种非对称设计精准捕捉了复杂场景过渡，并保持了极低的单步动作解码成本。此外，模型通过因果公式和KV缓存机制整合完整的过去观察与动作流，赋予系统强大的时间记忆能力。为解决视频去噪带来的计算瓶颈，研究引入噪声潜在增强策略，允许动作专家从部分去噪的视频潜在表示中解码动作，大幅提升了推理速度。

在实验验证方面，LingBot-VA在真实物理平台和多个仿真基准上均展现出卓越的性能与极高的数据效率。在真实世界的长程任务、高精度操作及柔性物体处理中，该模型仅凭五十条演示数据微调便达到行业领先水平。在RoboTwin和LIBERO等复杂仿真基准测试中，其平均成功率分别超过百分之九十一和百分之九十八，证明了自回归机制在维持长程记忆和多步推理上的优势。消融实验证实了视频预测模块和因果公式的决定性作用。同时，模型在单张GPU上的闭环控制频率达到约2Hz，满足真实部署需求。这一成果成功将生成式世界模型的预测能力引入具身操作，为通用机器人的物理推理和长程规划提供了高效新范式。