“AI教母”李飞飞的全新世界模型问世！一张英伟达AI芯片就能生成无限3D世界

468 0 0

文章摘要

李飞飞团队的最新研究成果RTFM（Real-Time Frame Model）标志着生成式世界模型技术取得重大突破。该模型基于大规模视频数据训练，能够通过输入1张或多张2D图像直接生成不同视点的全新2D图像，无需依赖显式3D表征。这一技术突破解决了长期困扰世界模型的可扩展性问题，仅需单块英伟达H100 GPU即可实现实时3D场景渲染，为交互式体验带来全新可能。

RTFM的核心优势体现在三个方面：高效性、可扩展性和持久性。高效性表现为单GPU支撑交互式帧率推理；可扩展性源于其通用端到端架构，能随数据与算力增长持续优化；持久性则通过”带位姿帧空间记忆”与”上下文调度”技术实现场景一致性保持。这些特性使RTFM在建模3D几何、反射、阴影等复杂物理现象方面表现出色，并能利用稀疏照片重建真实地点。

空间智能作为这项研究的基础概念，其重要性被李飞飞多次强调。她指出，空间智能不仅包括对空间方位的感知，还涵盖视觉辨别和形象思维能力，是机器在三维世界中导航、操作和决策的关键。这一理念与霍华德·加德纳提出的多元智能理论相呼应，为AI技术发展提供了新的思考维度。

World Labs作为承载这一技术突破的载体，已获得包括a16z、NEA和英伟达创投在内的2.3亿美元融资，成立仅3个月估值便达10亿美元。公司规划显示，其技术发展将分三阶段推进：首先构建空间智能大模型LWM，随后支持AR技术，最终应用于机器人技术领域。这一路线图体现了团队对技术商业化路径的清晰思考。

李飞飞同时推动的Behavior 1K项目也值得关注。这个包含1000个任务的仿真基准平台，旨在解决机器人研究中的标准化难题，为具身智能发展提供统一评估框架。该项目延续了她通过ImageNet推动AI发展的成功经验，有望在机器人学习领域产生类似影响。

技术融合被视为当前AI发展的关键特征，语言、空间、视觉和具身智能的交叉正在创造新的可能性。李飞飞团队预计，未来将进一步增强模型动态场景模拟与用户交互功能，更大规模模型将带来更优性能。这一发展方向不仅具有技术意义，也蕴含着改变人类社会的潜力，前提是始终坚持以人为本的技术发展理念。