VLA爆发！从美国RT-2到中国FiS-VLA，机器人「即知即行」的终极进化

65 0 0

文章摘要

2025年，全球具身智能领域迎来了爆发式增长，视觉语言动作模型（VLA）成为该领域的核心驱动力。VLA模型通过整合视觉、语言和动作三种模态，使机器人能够理解复杂指令并灵活执行任务，从而推动了智能机器人与人类交互的革新。全球范围内，从谷歌DeepMind到中国的智平方，各大企业和研究机构纷纷加速布局VLA技术，推动了该领域的快速发展。

谷歌的RT-2模型是VLA范式确立的关键节点。RT-2首次将机器人动作离散化为文本token，并与视觉语言数据联合训练，展现出强大的泛化能力。这一突破标志着VLA范式的正式确立，开启了“大模型驱动机器人控制”的新方向。此后，国内外企业竞相加速技术研发，推动VLA模型在复杂任务中的表现不断提升。

中国在VLA领域的技术创新尤为突出。智平方与国内顶尖高校合作，推出了RoboMamba和FiS-VLA等创新模型。RoboMamba通过引入状态空间序列模型Mamba，显著提升了VLA模型的推理效率和泛化能力。而FiS-VLA则通过“快慢双系统”架构，成功解决了机器人“操控效率”与“推理能力”不可兼得的难题，实现了实时控制与长程推理的协同。

FiS-VLA的突破性架构使其在仿真和真实任务中表现优异。该模型将执行模块（System 1）嵌入推理模块（System 2）中，通过共享参数实现高效协同。实验表明，FiS-VLA在仿真任务中的平均成功率提升了8%，在真实环境中提升了11%，同时控制频率达到21.9Hz，远超其他主流模型。此外，FiS-VLA在面对全新物体、复杂背景和多样光照条件时，展现出良好的泛化能力。

VLA技术的发展不仅推动了机器人智能的进化，也为AGI（通用人工智能）的实现奠定了基础。从RT-1的开创到FiS-VLA的实时控制突破，VLA模型在短短三年内完成了从实验室到工业落地的华丽蜕变。随着GROOT N1、Helix等模型的部署，VLA技术将在人形机器人、智能制造等领域发挥重要作用，推动机器人智能迈向新的黄金时代。

中国具身智能企业在全球VLA技术浪潮中展现了卓越的创新能力和产业影响力。通过一系列原创成果，智平方不仅攻克了长序列推理、实时控制等难题，还为全球具身智能的发展注入了强劲动力。未来，VLA模型将继续推动机器人智能的进化，重塑人类与机器人的交互方式，开启全新的技术篇章。