这么哇塞的世界模型,竟然是开源的!

AIGC动态2小时前发布 QbitAI
63 0 0
这么哇塞的世界模型,竟然是开源的!

 

文章摘要


【关 键 词】 机器人开源模型世界模拟具身智能实时交互

蚂蚁灵波团队最新开源的LingBot-World模型,标志着通用世界模拟技术取得重要突破。该模型能在10分钟时长内持续生成高度一致的交互式虚拟环境,视觉效果媲美DeepMind的Genie 3,且在时间维度和交互深度上更具优势。用户可通过键盘鼠标实时控制视角移动,或通过自然语言指令动态修改场景元素,实现”言出法随”的沉浸式体验。

技术实现上,团队通过三阶段训练策略攻克了世界模型的三大核心挑战。混合数据引擎整合了真实视频与游戏引擎合成数据,分层标注策略将描述细分为叙事、静态场景和密集时序三个层级,为模型学习因果关系奠定基础。模型架构采用混合专家模式,结合因果注意力机制和少步蒸馏技术,最终实现16fps的实时生成速度。评测显示,LingBot-World在长时序一致性和空间记忆能力方面显著优于同类模型,能准确推断画面外物体的持续行为,并严格遵循物理规律避免穿模现象。

此次开源与先前发布的LingBot-Depth(视觉感知)和LingBot-VLA(决策系统)形成完整的技术闭环,共同构成具身智能的基础设施。三者的协同效应体现在:虚拟环境为决策系统提供低成本训练场,高质量生成数据反哺感知模型优化,真实世界反馈又持续提升模拟器的物理准确性。这种架构设计不仅适用于机器人研发,其复用性还可延伸至游戏开发、AIGC创作和自动驾驶仿真等领域。

开源策略引发广泛关注,业界认为蚂蚁灵波通过标准化、模块化的技术输出,正在推动整个行业的基础设施升级。项目已公开全部技术文档、预训练权重和部署方案,包括GitHub代码库、Hugging Face模型仓库和详细论文。这种开放态度被评价为”对具身智能发展的重大贡献”,其长远影响可能超越当前聚焦的机器人领域,重塑多个产业的研发范式。

原文和模型


【原文链接】 阅读原文 [ 2227字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...