蚂蚁具身智能明牌了:做大脑,和宇树们错位竞争

AIGC动态2小时前发布 QbitAI
55 0 0
蚂蚁具身智能明牌了:做大脑,和宇树们错位竞争

 

文章摘要


【关 键 词】 具身智能开源模型机器人Scaling Law深度感知

蚂蚁灵波开源的LingBot-VLA具身智能基座模型,基于20000小时真实世界机器人操作数据训练,成为当前性能最强的开源VLA模型。该模型在权威评测中全面超越Physical Intelligence的π0.5、英伟达GR00T N1.6等国际顶尖模型,其核心突破在于首次系统验证了真实场景中VLA模型性能随数据规模持续提升的Scaling Law规律。研究显示,从3000小时到20000小时的数据扩展过程中,模型性能始终未出现饱和现象,证实了”更多真实数据→更高成功率”的持续正相关关系

技术实现上,LingBot-VLA采用专家混合Transformer架构,将视觉语言模型作为”大脑”负责语义理解,动作专家模块作为”小脑”生成可执行动作序列,二者通过共享注意力机制深度耦合。模型创新性地引入流匹配技术替代传统离散预测,使动作更连贯自然;同时整合自研的LingBot-Depth深度感知能力,显著提升了透明物体操作和三维空间任务的表现。训练基础设施的系统级优化使计算效率提升1.5-2.8倍,8卡GPU配置下实现每秒每GPU 261个样本的吞吐量。

在GM-100基准测试中,LingBot-VLA完成100个任务共计22500次真实机器人测试。结果显示,融合深度信息的版本在AgileX平台取得18.93%的平均任务成功率,较π0.5提升1.73个百分点;在Galaxea R1Pro平台优势更达6.88个百分点。跨本体泛化能力测试表明,模型在9种预训练机器人之外的3种新平台上仍保持优异表现,验证了”一个大脑适配多身体”的技术路径可行性。

该研究的产业意义在于突破机器人行业场景碎片化与硬件非标化痛点。蚂蚁灵波通过开源模型权重、高效训练代码库及22500次测试录像,建立可复现的评估标准。实验证明其数据效率优势明显,仅需对手60%的数据量即可达到更好效果,为行业提供低成本适配方案。这标志着具身智能从实验室演示向规模化落地的重要转折,与蚂蚁百灵基础大模型、灵光AI助手共同构成蚂蚁集团AGI技术体系的关键组成部分。

原文和模型


【原文链接】 阅读原文 [ 3402字 | 14分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...