刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代

AIGC动态7小时前发布 AIera
73 0 0
刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代

 

文章摘要


【关 键 词】 Genie 3世界模型实时生成真实交互未来展望

Genie 3是有史以来最先进的世界模型之一,仅通过文本就能实时生成完全互动、高度一致的世界,是通向AGI和具身智能体的关键一步。谷歌DeepMind的研究科学家和研究总监在访谈中分享了对Genie 3的见解。

Genie 3由Veo 2和Genie 2两个项目合作完成,具有诸多关键特性。它能保留最长达一分钟的空间记忆,物理规律会随训练数据规模和深度提升。只需输入文本提示,就能生成动态世界,用户可实时探索,每秒24帧,分辨率720p。它在生成视频时长、世界一致性、内容多样性、特殊记忆等方面实现突破,核心能力是只用几句话就能生成完整世界。

在设计上,Genie 3不采用“显式表示法”,坚持“逐帧生成”,有助于提升模型泛化和适应多样世界的能力。随着规模扩大,Genie 3涌现出令人惊讶的行为,如推测角色打开门等符合人类直觉的行为,对语言的理解和生成内容的真实感、视觉效果都有提升,在模拟现实世界能力上有巨大飞跃,视频真假难辨。

Genie 3在地形多样性问题上,能通过丰富训练数据掌握通用常识,表现出自然的行为。它还能在保持世界物理一致性的同时,忠实地执行用户提示词,在指令跟随和文本对齐方面也有提升,得益于DeepMind内部不同项目的经验迁移和知识共享。

Genie 3团队关注让模型本身更强大,最终会开放该模型。未来,真实感和交互性是关键。虽然Genie 3能生成几乎无限的场景,让机器人在虚拟世界学习,但世界模型距离准确模拟现实世界仍有差距。对于人类是否生活在模拟中这一问题,得到哲学化回答,若真是模拟,其运行硬件与现在完全不同,或许未来量子计算机才是运行模拟世界的平台。

原文和模型


【原文链接】 阅读原文 [ 2552字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...