美国视频生成老炮儿,入局世界模型

AIGC动态5小时前发布 QbitAI
55 0 0
美国视频生成老炮儿,入局世界模型

 

文章摘要


【关 键 词】 世界模型视频生成人工智能机器人虚拟环境

Runway公司发布了其首个通用世界模型GWM-1,标志着世界模型赛道的新进展。该模型基于最新升级的Gen-4.5视频生成模型构建,采用自回归架构,能够根据记忆内容进行逐帧预测生成,并支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频。GWM-1包含三个主要变体,分别针对不同应用场景。

GWM Worlds专注于实时环境模拟与探索,允许用户在连贯、反应灵敏的虚拟世界中自由移动。该模型能够实时生成沉浸式、无限且可探索的空间,保持场景元素在长序列移动过程中的空间一致性。用户可通过文本提示改变环境的物理规则,例如约束地面运动或解除重力以实现空中导航。这一功能不仅有助于智能体在真实物理世界中的行动训练,还能为VR体验提供支持。

GWM Avatars是一个由音频驱动的交互式视频生成模型,能够模拟自然的人类表情和动作。它可以渲染逼真的面部表情、眼部动作、口型同步以及自然手势,在长时间交互中保持稳定质量。该模型的应用场景广泛,包括个性化导师、客户服务数字人、高压场景模拟(如面试或谈判)以及游戏NPC的增强。GWM Avatars即将提供API,供用户集成到自己的产品或服务中。

GWM Robotics是一个面向机器人操作的学习型模拟器,通过学习机器人数据形成模拟能力。它能够生成合成训练数据,从新物体、任务指令和环境变化等维度扩充现有数据集,同时支持在模拟环境中直接测试策略模型的可行性。这一方法显著降低了物理硬件的成本与风险,提高了训练和评估的效率。Runway还发布了GWM Robotics的Python SDK,支持多视角视频生成和长上下文序列,便于集成到现代机器人策略模型中。

除了世界模型,Runway还对Gen-4.5进行了功能升级,新增了原生音频生成和编辑能力。Gen-4.5现在可以生成逼真的对话、音效和背景音频,并支持对现有音频的灵活编辑。此外,多镜头编辑功能的引入使用户能够在初始场景中进行任意长度的修改,并实现整段视频的一致变换。这些升级进一步扩展了创作的可能性,为内容生成提供了更丰富的工具。

原文和模型


【原文链接】 阅读原文 [ 1393字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...