Veo何止生成视频:DeepMind正在用它模拟整个机器人世界
文章摘要
【关 键 词】 机器人、视频仿真、策略评估、安全测试、泛化能力
通用型机器人策略的发展带来了高效的任务执行能力,但也面临真实世界评估成本高、安全性测试困难等挑战。传统的物理仿真器在真实感和多样性上存在局限,而视频模型为世界仿真提供了新的可能性。Google DeepMind Gemini Robotics团队提出了一种基于视频建模的机器人策略评估系统,利用Veo视频生成技术实现高保真度的仿真环境。
该系统能够生成多样化的真实世界场景变体,无需搭建物理场景即可测试机器人策略。通过1600余次真实实验验证,该系统在分布内评估、分布外泛化及安全红队测试中表现出色。研究采用了Veo 2作为基础模型,结合多视角拼接输入,确保生成的视频帧具备动作条件约束和视觉一致性。
实验结果表明,视频模型预测的策略性能与实际测试结果高度相关。在八种通用型策略检查点和五项任务中,该系统准确评估了机器人的表现,并成功识别了潜在的安全风险。例如,通过模拟陌生环境或高风险动作(如快速抓取、合上电脑),提前预测策略的可行性,避免真实操作中的危险。
尽管视频建模在机器人领域仍处于早期阶段,但这项研究为策略评估提供了一条可扩展的路径。未来,该方法有望进一步优化接触动力学仿真和多视角一致性,推动机器人技术在复杂环境中的安全部署。
原文和模型
【原文链接】 阅读原文 [ 1552字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...




