文章摘要
【关 键 词】 开源模型、世界模型、具身智能、物理模拟、人工智能
蚂蚁集团旗下的具身智能公司“蚂蚁灵波”正式开源通用世界模型LingBot-World,其核心突破在于全面开放代码与模型权重,且不绑定特定硬件平台。该模型沿袭了DeepMind Genie的生成式路线,但在交互能力、动态稳定性、时序连贯性及物理一致性上取得显著进展。模型展现出从“生成”到“模拟”的跨越性能力,例如鸭子蹬水动作与水面的物理响应符合流体力学规律,智能体运动遵循空间逻辑,且能维持长时间未被观察时的状态记忆。
一段长达9分20秒的无剪辑生成视频展示了模型的稳定性:从古希腊神庙出发的连贯场景中,画面物理状态与视觉质量在近十分钟内保持罕见的一致性,尽管后期出现建筑位置关系的遗忘瑕疵。与主流模型对比,LingBot-World的生成时长远超Veo 3(8秒)、Sora 2(25秒)等闭源方案,在开源条件下实现720p分辨率的高动态表现。VBench测试显示其全面领先Yume-1.5等开源模型,证明其不仅是视频生成器,更是交互式物理模拟器。
世界模型领域目前存在路线分歧:李飞飞的Marble侧重空间关系,英伟达细分预测与推理模型,而DeepMind Genie追求端到端渲染。蚂蚁灵波选择类似Genie的通用路径,旨在为Agent、游戏及仿真提供物理规律理解的基础设施。其技术实现依赖独特数据引擎,融合游戏数据与合成渲染,通过动作-反馈闭环训练解决互联网视频缺乏因果链的问题。模型分阶段训练策略逐步注入世界知识,最终实现概率预测式的状态演化模拟。
LingBot-World的深层价值在于构建高保真物理沙盒。其支持自然语言控制环境风格切换(如“冬季”“像素风”),并能精确生成特定物体(如烟花)。这种能力可低成本模拟自动驾驶的极端场景,而长时序稳定性为具身智能提供多步骤决策训练环境。与视觉-语言-动作模型LingBot-VLA结合后,系统可预演动作轨迹以筛选安全路径。更值得注意的是,模型数据还微调出自主智能体,实现环境与动作的双向实时影响,暗示世界模型未来或成为驱动智能体的核心底座。
行业背景上,大语言模型(LLM)在物理世界理解的局限加速了世界模型研究。Richard Sutton、李飞飞等学者指出LLM无法预测现实后果,而世界模型通过内部模拟支持规划决策。蚂蚁灵波的开源举措降低了验证门槛,其近期连续发布的空间感知模型LingBot-Depth等成果,标志着该公司从幕后走向开放生态构建的前台。
技术溯源显示,世界模型概念可追溯至1990年Richard Sutton的Dyna框架,其核心理念——通过内部模拟替代真实试错——仍是当前研究的共同根基。LingBot-World的突破在于将这一理念与生成式AI结合,通过数据与架构创新逼近物理规律的深层表征。尽管行业尚未统一标准,蚂蚁灵波的开源范式为探索世界模型的多样性提供了重要实践样本。
原文和模型
【原文链接】 阅读原文 [ 5437字 | 22分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



