当世界模型开始“指挥双手”,蚂蚁灵波的具身路线更清晰了

AIGC动态3小时前发布 Si-Planet
48 0 0
当世界模型开始“指挥双手”,蚂蚁灵波的具身路线更清晰了

 

文章摘要


【关 键 词】 具身智能开源模型世界模型机器人技术人工智能

蚂蚁旗下的灵波科技近期密集发布了多项具身智能领域的重要成果,展示了其在该领域的技术布局与生态野心。LingBot-World和LingBot-VA两款开源世界模型的发布,标志着蚂蚁在构建物理世界模拟与机器人交互范式上取得突破。前者定位为高保真环境模拟器,通过分层数据引擎与混合专家(MoE)架构,解决了视频生成模型长期存在的时序一致性差、计算成本高等问题,在视频质量、动态交互等指标上达到领先水平;后者则创新性地采用自回归视频-动作映射框架(MoT),将高维视频与低维动作Token统一编码,在LIBERO等基准测试中任务成功率超98%,并实现30-50条数据即可适配新场景的高效学习能力。

技术路径上,两款模型均体现出对开源生态与实用性的双重重视。LingBot-World通过开源降低开发者构建虚拟训练场的门槛,而LingBot-VA的异步推理流水线设计使模型能直接在真实机器人上部署验证。这种“模拟-实践”闭环的协同设计,为通用具身智能提供了可落地的技术选项。

蚂蚁灵波将当前世界模型分为三类技术路线:智能上限突破、真实世界仿真、机器人控制。其独特之处在于同时对仿真与控制两条路径展开探索。LingBot-World直指现有视频生成模型“缺乏物理规律理解”的核心缺陷,通过三阶段训练(通用视频先验、世界知识注入、实时推理优化)实现从“做梦者”到“模拟者”的跨越;LingBot-VA则聚焦具身控制中的因果推理难题,通过视频-动作的自回归预测建立物理现实的因果关系,并结合噪声增强、注意力掩码等技术提升系统鲁棒性。

从技术生态看,蚂蚁灵波已初步形成覆盖感知(LingBot-Depth)、操作(LingBot-VLA)、仿真(LingBot-World)、交互(LingBot-VA)的全链条工具库。这种开源协作的策略,既解决了行业数据稀缺、成本高昂的痛点,也为具身智能的长期发展积累了基础设施。值得关注的是,其所有模型均强调“真实世界反馈”的重要性——无论是World的交互式仿真环境,还是VA的在线学习机制,均指向通过持续的环境交互修正模型幻觉这一技术哲学。

未来,VLA与世界模型的深度融合将成为蚂蚁探索通用具身智能的核心方向。尽管作为新入局者,灵波科技通过这轮密集发布已展现出独特的技术审美:在理想主义的前沿探索与现实主义的问题解决间保持平衡,同时以开源生态撬动行业协同创新。随着更多开发者加入,这种基于物理规律理解与因果推理的技术路线,或将为世界模型的发展提供新的可能性。

原文和模型


【原文链接】 阅读原文 [ 3574字 | 15分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...