文章摘要
【关 键 词】 机器人、视频生成、家务推理、世界模型、自我学习
1X公司近日发布了名为1X World Model(1XWM)的世界模型,旨在提升其人形机器人Neo的通识行为能力和物理世界理解力。这一模型通过文字指令和初始画面生成未来视频片段,再从中推理出机器人动作路径,突破了传统“图像到动作”的直接预测模式。Neo如今能够将任意指令转化为新动作,即便此前从未执行过类似任务,标志着其向自我学习能力迈出了重要一步。
模型的核心架构包含两部分:World Model(WM)负责预测场景未来状态,Inverse Dynamics Model(IDM)则将视频帧转化为实际动作轨迹。该设计将人形结构作为模型泛化的前提,仅需900小时人类视频和70小时机器人数据微调,即可实现复杂任务的泛化执行,如双手配合和人际交互。这种训练策略显著降低了对大规模真实机器人数据的依赖。
在实际测试中,1XWM在厨房操作、衣物处理等家务场景表现稳定,但精细任务如“倒牛奶”仍存在挑战。生成视频的物理真实性与动作成功率呈正相关,当视频出现物体漂浮等逻辑错误时,实际执行成功率几乎为零。研究团队采用“多版本生成、优选最佳”策略,将单次生成扩展至8次后,任务成功率得到显著提升。例如“拉纸巾”任务成功率从30%提升至45%。
优化方面,团队通过VLM模型扩写训练视频的文字说明,并加入第一视角人类操作视频,有效提升了新任务泛化质量。当前模型每轮推理耗时约11秒,可生成5秒可执行动作视频。未来计划重点加速响应速度,并建立长时任务的闭环重规划机制。1XWM已初步具备由机器人经验驱动的自我优化能力,只要保持任务覆盖的非零成功率,就能持续推动性能提升。
这一技术路径的创新性在于:视频成为连接任务场景、推理与行动的中间介质。通过生成未来预测视频并从中提取动作,机器人展现出更高层次的泛化潜力。虽然尚未实现真正的零样本执行,但1XWM为具身智能的发展提供了新范式——让机器人在“想象”未来后再行动,可能成为通向通用机器智能的关键阶梯。
原文和模型
【原文链接】 阅读原文 [ 1378字 | 6分钟 ]
【原文作者】 机器人前瞻
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆



