这么哇塞的世界模型，竟然是开源的！

537 0 0

文章摘要

蚂蚁灵波团队最新开源的LingBot-World模型，标志着通用世界模拟技术取得重要突破。该模型能在10分钟时长内持续生成高度一致的交互式虚拟环境，视觉效果媲美DeepMind的Genie 3，且在时间维度和交互深度上更具优势。用户可通过键盘鼠标实时控制视角移动，或通过自然语言指令动态修改场景元素，实现”言出法随”的沉浸式体验。

技术实现上，团队通过三阶段训练策略攻克了世界模型的三大核心挑战。混合数据引擎整合了真实视频与游戏引擎合成数据，分层标注策略将描述细分为叙事、静态场景和密集时序三个层级，为模型学习因果关系奠定基础。模型架构采用混合专家模式，结合因果注意力机制和少步蒸馏技术，最终实现16fps的实时生成速度。评测显示，LingBot-World在长时序一致性和空间记忆能力方面显著优于同类模型，能准确推断画面外物体的持续行为，并严格遵循物理规律避免穿模现象。

此次开源与先前发布的LingBot-Depth（视觉感知）和LingBot-VLA（决策系统）形成完整的技术闭环，共同构成具身智能的基础设施。三者的协同效应体现在：虚拟环境为决策系统提供低成本训练场，高质量生成数据反哺感知模型优化，真实世界反馈又持续提升模拟器的物理准确性。这种架构设计不仅适用于机器人研发，其复用性还可延伸至游戏开发、AIGC创作和自动驾驶仿真等领域。

开源策略引发广泛关注，业界认为蚂蚁灵波通过标准化、模块化的技术输出，正在推动整个行业的基础设施升级。项目已公开全部技术文档、预训练权重和部署方案，包括GitHub代码库、Hugging Face模型仓库和详细论文。这种开放态度被评价为”对具身智能发展的重大贡献”，其长远影响可能超越当前聚焦的机器人领域，重塑多个产业的研发范式。