Veo何止生成视频：DeepMind正在用它模拟整个机器人世界

AIGC动态3个月前发布 almosthuman2014

565 0 0

文章摘要

通用型机器人策略的发展带来了高效的任务执行能力，但也面临真实世界评估成本高、安全性测试困难等挑战。传统的物理仿真器在真实感和多样性上存在局限，而视频模型为世界仿真提供了新的可能性。Google DeepMind Gemini Robotics团队提出了一种基于视频建模的机器人策略评估系统，利用Veo视频生成技术实现高保真度的仿真环境。

该系统能够生成多样化的真实世界场景变体，无需搭建物理场景即可测试机器人策略。通过1600余次真实实验验证，该系统在分布内评估、分布外泛化及安全红队测试中表现出色。研究采用了Veo 2作为基础模型，结合多视角拼接输入，确保生成的视频帧具备动作条件约束和视觉一致性。

实验结果表明，视频模型预测的策略性能与实际测试结果高度相关。在八种通用型策略检查点和五项任务中，该系统准确评估了机器人的表现，并成功识别了潜在的安全风险。例如，通过模拟陌生环境或高风险动作（如快速抓取、合上电脑），提前预测策略的可行性，避免真实操作中的危险。

尽管视频建模在机器人领域仍处于早期阶段，但这项研究为策略评估提供了一条可扩展的路径。未来，该方法有望进一步优化接触动力学仿真和多视角一致性，推动机器人技术在复杂环境中的安全部署。