蚂蚁开源世界模型LingBot-World:具有分钟级记忆的实时世界模拟器

AIGC动态2小时前发布 AIGCOPEN
59 0 0
蚂蚁开源世界模型LingBot-World:具有分钟级记忆的实时世界模拟器

 

文章摘要


【关 键 词】 具身智能开源模型世界模拟AIGC虚拟环境

蚂蚁集团旗下灵波科技开源了两项具身智能领域的突破性成果:具身智能模型和LingBot-World世界模型。前者被誉为”最强开源机器人大脑”,基于两万小时真机数据训练,开启了物理AI缩放定律的研究。后者则将传统视频生成模型进化为可交互的世界模拟器,具备理解物理规律、空间记忆和实时交互的能力。

LingBot-World的创新核心在于其混合数据引擎和多阶段训练策略。系统整合了真实影像、游戏录屏及虚幻引擎合成数据,通过分层语义标注策略将被动视频流转化为动态交互环境。数据标注采用三维描述体系:综合叙事描述构建全局语义,场景静态描述解耦运动与场景生成,密集时序描述捕捉动态细节。这种结构化处理为模型理解物理世界奠定了数据基础。

模型训练采用渐进式三阶段进化策略。预训练阶段建立通用视频先验,基于140亿参数的Wan2.2扩散模型;中间训练阶段注入世界知识,采用混合专家架构实现高效推理,总参数量达280亿但保持计算量不变;后训练阶段通过因果架构适配和少步蒸馏技术实现实时交互,在普通GPU上达到每秒16帧的低延迟。特别值得注意的是,模型展现出涌现记忆能力,能保持分钟级长程一致性,支持文本驱动的环境编辑。

LingBot-World突破了传统视频生成器的局限,展现出多项创新特性。其隐式空间记忆能力允许长时间漫游后仍保持场景一致性;支持自然语言实时修改世界状态;还能作为机器人训练场和3D重建基础。模型采用分层可扩展架构,结合了视觉质量与交互能力,为构建无限、可玩、互动的虚拟世界提供了开源范式。

目前模型在记忆稳定性和复杂操作能力方面仍有提升空间,但其开源发布标志着世界模型研究的重要进展。这项技术有望推动内容创作、游戏开发和机器人学习等领域的革新,加速沉浸式虚拟世界的实现进程。随着社区共同参与,具身智能与虚拟环境的融合将开启更广阔的应用前景。

原文和模型


【原文链接】 阅读原文 [ 2867字 | 12分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...