全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

 

文章摘要


【关 键 词】 强化学习具身智能模型架构在线学习机器人控制

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online RL已成为具身智能领域极具前景的研究方向,其核心在于解决传统模仿学习(SFT)的局限性——当面对未见场景或数据不完美时,机器人难以应对。强化学习通过试错机制使智能体超越专家数据上限,但直接应用于VLA面临三大挑战:物理环境实时探索的复杂性、大模型训练的不稳定性以及算力资源的巨额消耗

针对这些问题,iRe-VLA创新性地采用两阶段循环迭代架构。第一阶段冻结VLM主干参数,仅训练轻量级动作输出层,实现低成本稳定探索;第二阶段解冻全模型,将RL探索的高价值行为与原始专家数据混合微调,内化为模型的固有能力。这种”分而治之”策略在MetaWorld仿真环境和Panda机械臂实体实验中表现卓越:新物体抓取成功率从35%提升至80%,未训练物体的泛化能力也显著增强。消融实验证实,解冻VLM主干对突破性能瓶颈至关重要,这验证了大模型深层特征表征在复杂技能掌握中的不可替代性。

π_0.6与iRe-VLA的共同价值在于提出可落地的技术路径:通过参数冻结策略保障训练稳定性,利用本地-云端算力协同实现经济高效部署,建立持续学习框架使机器人兼具技能拓展与旧知保持能力。当前研究仍存在稀疏奖励环境下的探索效率、大规模VLA的RL算法扩展等开放问题,但这两项工作已为具身智能的演进提供了关键方法论。未来发展方向可能聚焦于跨模态表征的深度耦合、样本效率的进一步提升以及分布式训练框架的优化,这些突破将加速智能体在开放物理环境中的自主进化进程。

原文和模型


【原文链接】 阅读原文 [ 2860字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...