CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

 

文章摘要


【关 键 词】 LaDi – WM机器人操作扩散策略世界模型实验验证

预测性策略在机器人操作任务中能提升性能,但让世界模型预测机器人与物体交互的精确未来状态仍是挑战。国防科大、北京大学、深圳大学团队提出 LaDi – WM 模型解决该问题,显著提升了机器人操作任务的成功率。

提出 LaDi – WM 模型及扩散策略:LaDi – WM 是基于隐空间扩散的世界模型,利用预训练的视觉基础模型构建隐空间表示,包含几何和语义特征,具有广泛通用性。基于此,团队设计了扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,以产生更准确的动作结果。

技术路线分两阶段:一是世界模型学习,先通过预训练的视觉基础模型提取观测图像的几何与语义表征,再对两种隐空间表示进行扩散过程并使其交互,学习二者依赖关系。二是策略模型训练与迭代优化推理,结合世界模型的未来预测引导策略学习,策略模型还可多次利用未来预测优化动作输出,降低输出分布熵。

实验结果表现优异:虚拟实验中,在 LIBERO – LONG 和 CALVIN D – D 数据集上验证了框架性能。LaDi – WM 在少量训练数据下就能达到高成功率,还验证了框架的可扩展性和跨场景泛化能力,且世界模型泛化能力优于策略模型。真机实验里,LaDi – WM 将原始模仿学习策略的成功率显著提升 20%,策略在不同光照和初始位置下有鲁棒的泛化性。

该团队提出的 LaDi – WM 模型及相关策略,通过虚拟和真机实验证明了有效性,显著提升了机器人抓取操作技能的性能。

原文和模型


【原文链接】 阅读原文 [ 1990字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...