文章摘要
【关 键 词】 AI模型、开源技术、物理仿真、具身智能、虚拟世界
蚂蚁灵波科技最新发布的开源世界模型LingBot-World标志着人工智能领域的重要突破。该模型不仅全面对标谷歌Genie 3的闭源系统,更在多项性能指标上实现超越,成为首个开源的SOTA级世界模型。其开源特性彻底打破了技术垄断格局,为全球开发者提供了高质量的物理仿真基础平台。
在技术性能方面,LingBot-World展现出三大核心优势。高保真模拟能力可精确复现从微观生物运动到宏观场景交互的复杂物理动态,实现细粒度可控的Zero-shot交互生成,如将故宫实景转化为无缝衔接的可交互视频流。其突破性的长时记忆机制支持10分钟级别的无损视频生成,解决传统模型在时序一致性上的瓶颈,为连续虚拟世界的构建奠定基础。作为多用途基座,该模型还能为3D重建、游戏Agent训练等下游应用提供物理自洽的仿真环境。
技术架构的创新体现在三大支柱:层级语义数据引擎通过结构化流程处理原始视频数据;多阶段进化训练策略分步实现从视频生成到世界模拟的转化;DiT模块结合Plucker编码的技术路线,使模型具备物体重现的隐性记忆能力。实验显示,模型能自主维持全局一致性,例如持续追踪画面外的运动物体轨迹,证明其已超越像素记忆层面,真正掌握时空推理能力。
蚂蚁灵波的战略布局揭示了更宏大的技术图景。LingBot-World与同期发布的VLA基座模型形成互补闭环:前者在虚拟空间提供低成本试错环境,后者负责现实世界的动作执行。这种”感知-行动-认知”的协同机制,有效解决具身智能领域数据稀缺、训练昂贵、泛化困难的三大痛点。特别值得注意的是,模型支持的10分钟级稳定生成为多步骤长序列任务带来范式变革,使机器人首次具备在虚拟环境中完整学习复杂行为链的能力。
当前世界模型技术仍处前沿探索阶段,蚂蚁灵波选择开放核心技术的策略,不仅加速行业创新,更重塑了AI基础设施的发展路径。这种将物理仿真与具身智能深度融合的尝试,可能重新定义未来人机交互的底层逻辑,其影响将超越单一企业范畴,成为推动Physical AI时代到来的关键变量。
原文和模型
【原文链接】 阅读原文 [ 3470字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



