“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界

文章摘要
【关 键 词】 人工智能、世界模型、空间智能、实时渲染、3D技术
李飞飞团队的最新研究成果RTFM(Real-Time Frame Model)标志着生成式世界模型技术取得重大突破。该模型基于大规模视频数据训练,能够通过输入1张或多张2D图像直接生成不同视点的全新2D图像,无需依赖显式3D表征。这一技术突破解决了长期困扰世界模型的可扩展性问题,仅需单块英伟达H100 GPU即可实现实时3D场景渲染,为交互式体验带来全新可能。
RTFM的核心优势体现在三个方面:高效性、可扩展性和持久性。高效性表现为单GPU支撑交互式帧率推理;可扩展性源于其通用端到端架构,能随数据与算力增长持续优化;持久性则通过”带位姿帧空间记忆”与”上下文调度”技术实现场景一致性保持。这些特性使RTFM在建模3D几何、反射、阴影等复杂物理现象方面表现出色,并能利用稀疏照片重建真实地点。
空间智能作为这项研究的基础概念,其重要性被李飞飞多次强调。她指出,空间智能不仅包括对空间方位的感知,还涵盖视觉辨别和形象思维能力,是机器在三维世界中导航、操作和决策的关键。这一理念与霍华德·加德纳提出的多元智能理论相呼应,为AI技术发展提供了新的思考维度。
World Labs作为承载这一技术突破的载体,已获得包括a16z、NEA和英伟达创投在内的2.3亿美元融资,成立仅3个月估值便达10亿美元。公司规划显示,其技术发展将分三阶段推进:首先构建空间智能大模型LWM,随后支持AR技术,最终应用于机器人技术领域。这一路线图体现了团队对技术商业化路径的清晰思考。
李飞飞同时推动的Behavior 1K项目也值得关注。这个包含1000个任务的仿真基准平台,旨在解决机器人研究中的标准化难题,为具身智能发展提供统一评估框架。该项目延续了她通过ImageNet推动AI发展的成功经验,有望在机器人学习领域产生类似影响。
技术融合被视为当前AI发展的关键特征,语言、空间、视觉和具身智能的交叉正在创造新的可能性。李飞飞团队预计,未来将进一步增强模型动态场景模拟与用户交互功能,更大规模模型将带来更优性能。这一发展方向不仅具有技术意义,也蕴含着改变人类社会的潜力,前提是始终坚持以人为本的技术发展理念。
原文和模型
【原文链接】 阅读原文 [ 1893字 | 8分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆