李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型

李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型

 

文章摘要


【关 键 词】 空间智能世界模型开源具身智能实时交互

当前AI世界模型发展中,虚拟数字世界智能体可灵活运行,但现实具身机器人仍难以适配复杂物理空间,二者的鸿沟本质是智能体空间智能感知的缺失。2024年李飞飞创立World Labs入局空间智能领域,带动这一千亿级赛道受到全球关注,该公司最新一轮融资后估值已达50亿美元,其推出的RTFM模型核心是构建永久一致性的3D场景,帮助智能体理解并交互物理世界。

国内创业公司影溯近日发布并开源实时交互3D世界模型InSpatio-WorldFM,标志中国团队在空间智能底层技术取得奠基性突破,以开放姿态推动AI从虚拟屏幕走向物理现实。该模型由浙江大学章国锋团队领衔开发,依托团队在3D视觉和空间计算领域20余年技术积累,跳出传统路径对稀缺原生3D数据的依赖,通过独创的「数据升维」与「几何约束」策略,成功激活互联网海量2D存量视频中蕴含的3D空间知识,精准破解了行业长期面临的「高质量、规模化3D数据匮乏」的痛点。当前全球绝大多数主流世界模型本质为2D视频生成模型,以2D像素表达空间状态,不符合物理世界的3D属性,而InSpatio-WorldFM坚持原生3D技术路线,构建物理世界的抽象表征而非逐像素生成画面,其主体一致性与运镜稳定性已超越当前主流世界模型与视频生成模型,可解决AIGC工具效果不稳定、反复试错浪费算力的问题。

InSpatio-WorldFM突破了纯2D模型的局限,以三维多视图一致性为核心约束,解决了行业长期存在的「长时序遗忘」和「空间几何崩塌」问题,生成场景可保持物理级持久一致性,无限时长推理也不会出现崩坏变形。同时该模型算力需求极低,训练仅动用100张卡的算力规模,远低于现有视频模型训练需求,可在单块RTX 4090上实现实时推理,目标将空间智能从数据中心拓展到各类消费级端侧设备,打开了广阔商业想象空间。此外它创新采用「显式锚点+隐式记忆」混合架构,让AI拥有稳定的空间记忆,理论上可支持无限时长生成。影溯采取开源共建的发展路线,已开放模型项目主页、GitHub仓库与在线体验入口,后续还将推出更多技术内容、扩展模型与实时交互应用,为生成式AI、具身智能与机器人发展开创了新的起点。

原文和模型


【原文链接】 阅读原文 [ 3899字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-seed-2-0-lite-260215
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...