实测Genie:各位,传说中的世界模型被Google做出来了

AIGC动态2小时前发布 Si-Planet
37 0 0
实测Genie:各位,传说中的世界模型被Google做出来了

 

文章摘要


【关 键 词】 AI模型世界生成交互探索物理模拟风格切换

Google DeepMind近期向公众开放了Project Genie的实验性研究原型,这是世界模型Genie 3首次以可交互形态对外展示。该原型目前仅限美国18岁以上的Google AI Ultra订阅用户使用。Project Genie与传统的视频生成模型不同,它允许用户通过填写环境提示和主角提示来生成虚拟世界,并支持上传参考图片以及选择第一人称或第三人称视角。

在生成过程中,用户可在一分钟内预览世界模型视频的“第一帧”,并根据需要进行调整。生成完成后,用户可自由探索虚拟世界,目前支持约1分钟的可交互探索时长,分辨率为720p。尽管在时间和分辨率上不占优势,但Project Genie的核心优势在于其控制能力。用户可通过WASD键控制角色移动,方向键控制视角转动,并支持跳跃动作。视角移动流畅,响应延迟低,操作体验接近实时渲染而非视频回放。系统还内置了基础的物理约束,如角色在场地边缘会自动停下,避免穿模现象。

从生成质量来看,Project Genie在“世界还原”方面表现突出。测试中,球场、草地、傍晚光照等元素均被准确还原,人物初始位置和服装也符合语境。此外,上传《艾尔登法环》游戏画面后,Project Genie成功复现了原图的环境特点。在纵向位移测试中,角色跳下悬崖的动作在视觉上合理,空间关系准确,甚至出现了因蹭到岩壁而短暂卡住的细节,表明系统在计算物理碰撞而非简单补足图像。起跳时扬起的灰尘和落地时的屈膝缓冲动作进一步增强了动作的真实感,尽管水花效果等细节仍有瑕疵。

Project Genie的另一个亮点是世界的稳定性。在角色进行大幅度空间移动后,世界风格和结构并未出现变形或漂移,金色树叶的色调和悬崖结构等元素均保持完整。然而,在尝试将写实风格转换为像素画风时,系统表现不佳,风格变化主要集中在角色层面,环境仍保持原有渲染方式,且部分场景语义出现偏移。这表明Project Genie对已生成世界的整体风格重写能力较弱。

从技术角度看,Project Genie的意义在于其同时实现了状态可持续、空间一致和行为可约束这三个此前难以兼顾的目标。它不仅仅预测下一帧画面,而是在给定条件和规则下推演世界的演化过程,从而维护一个隐式的世界状态。这种设计使其在分辨率、画面精度和生成时长上有所牺牲,但确保了世界的可操作性和自洽性。Project Genie的出现证明,世界模型不仅是一个理论概念,而是可以被构建、进入和操作的现实原型。它标志着世界模型正经历类似视频生成早期的1.0阶段,核心价值在于回答“生成的世界能否在操作中保持不崩溃”这一基础问题。

原文和模型


【原文链接】 阅读原文 [ 2373字 | 10分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...