VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

AIGC动态4小时前发布 AIera
65 0 0
VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

 

文章摘要


【关 键 词】 具身智能VLA模型机器人技术创新全球趋势

2025年,全球具身智能领域迎来了爆发式增长,视觉语言动作模型(VLA)成为该领域的核心驱动力。VLA模型通过整合视觉、语言和动作三种模态,使机器人能够理解复杂指令并灵活执行任务,从而推动了智能机器人与人类交互的革新。全球范围内,从谷歌DeepMind到中国的智平方,各大企业和研究机构纷纷加速布局VLA技术,推动了该领域的快速发展。

谷歌的RT-2模型是VLA范式确立的关键节点。RT-2首次将机器人动作离散化为文本token,并与视觉语言数据联合训练,展现出强大的泛化能力。这一突破标志着VLA范式的正式确立,开启了“大模型驱动机器人控制”的新方向。此后,国内外企业竞相加速技术研发,推动VLA模型在复杂任务中的表现不断提升。

中国在VLA领域的技术创新尤为突出。智平方与国内顶尖高校合作,推出了RoboMamba和FiS-VLA等创新模型。RoboMamba通过引入状态空间序列模型Mamba,显著提升了VLA模型的推理效率和泛化能力。而FiS-VLA则通过“快慢双系统”架构,成功解决了机器人“操控效率”与“推理能力”不可兼得的难题,实现了实时控制与长程推理的协同。

FiS-VLA的突破性架构使其在仿真和真实任务中表现优异。该模型将执行模块(System 1)嵌入推理模块(System 2)中,通过共享参数实现高效协同。实验表明,FiS-VLA在仿真任务中的平均成功率提升了8%,在真实环境中提升了11%,同时控制频率达到21.9Hz,远超其他主流模型。此外,FiS-VLA在面对全新物体、复杂背景和多样光照条件时,展现出良好的泛化能力。

VLA技术的发展不仅推动了机器人智能的进化,也为AGI(通用人工智能)的实现奠定了基础。从RT-1的开创到FiS-VLA的实时控制突破,VLA模型在短短三年内完成了从实验室到工业落地的华丽蜕变。随着GROOT N1、Helix等模型的部署,VLA技术将在人形机器人、智能制造等领域发挥重要作用,推动机器人智能迈向新的黄金时代。

中国具身智能企业在全球VLA技术浪潮中展现了卓越的创新能力和产业影响力。通过一系列原创成果,智平方不仅攻克了长序列推理、实时控制等难题,还为全球具身智能的发展注入了强劲动力。未来,VLA模型将继续推动机器人智能的进化,重塑人类与机器人的交互方式,开启全新的技术篇章。

原文和模型


【原文链接】 阅读原文 [ 5231字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...