文章摘要
【关 键 词】 机器人、AIGC、动作模型、物理直觉、实时控制
英伟达最新发布的世界动作模型DreamZero标志着机器人技术的重要突破。这款拥有14B参数的模型通过视频生成与动作预测的深度耦合,赋予机器人预测未来并指导动作的物理直觉能力。与传统视觉语言动作模型(VLA)不同,DreamZero不再受限于重复训练的专家演示数据,而是能够从未见过的环境中理解物理规律,完成未训练过的复杂任务。
视频预测技术是DreamZero的核心创新。该模型基于Wan2.1视频扩散模型,当接收到指令时,会首先生成未来世界演变的视频流,然后反向推导实现该视觉目标所需的精确电机指令。这种由内而外的物理直觉使模型在解鞋带、翻面汉堡等新任务上展现出超过传统模型2倍的泛化能力。研究人员将这一突破称为”机器人GPT时刻”。
在数据利用方面,DreamZero打破了机器人学习依赖重复演示的传统范式。通过约500小时的多样化遥操作数据,覆盖22个真实环境,模型学会了物理世界的通用运动原语。实验显示,使用多样化数据训练的模型在基础任务上的成功率比重复数据训练高出17%,在新任务上的优势更为显著。
DreamZero展现出惊人的跨机体适应能力。由于学习的是物理世界的通用动态而非特定电机指令,模型能够通过少量人类或其他机器人的操作视频进行快速适配。实验表明,仅用12分钟人类第一视角视频和20分钟其他机器人操作视频进行微调,就能使模型在未见任务上的表现提升42%。这种能力为机器人技术的规模化应用扫除了重要障碍。
为解决视频扩散模型实时控制的挑战,研究团队开发了DreamZero-Flash优化方案。通过异步闭环执行机制和创新的解耦噪声时间表,将推理速度提升了38倍,控制频率达到7Hz。这些优化使模型能够在保持预测质量的同时实现流畅的实时控制,有效解决了传统预测模型的误差累积问题。
原文和模型
【原文链接】 阅读原文 [ 2034字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



