卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
文章摘要
【关 键 词】 机器人、具身智能、通用模型、跨形态、部署稳定性
具身智能的核心挑战在于让机器人在真实世界中稳定、可靠地执行任务,而非仅完成一次性演示。当前机器人策略的通用化面临三大结构性障碍:形态割裂导致数据难以共享,真实机器人数据成本高昂且覆盖有限,以及部署系统缺乏稳定性机制。这些因素共同阻碍了从研究到产品的跨越。
研究团队提出的Being-H0.5模型通过系统性创新解决了上述问题。该模型在真实机器人实验中展现出专用型与通用型策略的性能接近性,尤其在长程任务和双臂协同任务中表现突出。实验将任务分为空间类、长程、双臂和泛化四类,发现模型在长程任务中误差累积控制、双臂任务实时协同方面具有显著优势。值得注意的是,在需要重复通用子技能的整理收纳场景中,通用模型甚至可能超越专用模型,这得益于其对跨任务动作结构的广泛学习。
UniHand-2.0预训练数据集是通用模型成功的关键支撑,其35,000小时规模涵盖人类手部操作、30种机器人形态数据和视觉语言理解数据。消融实验证实,该预训练为模型提供了跨形态共享的操控先验,缺少它会导致通用模型性能显著下降。在LIBERO和RoboCasa等仿真基准测试中,模型分别取得98.9%和53.9%的成功率,展示了其在复杂长程任务和家庭场景中的稳健性。
部署机制的设计尤为关键。MPG(动作流形保护)和UAC(异步控制协调)的双重机制有效解决了真实环境中的动作抖动和时序不同步问题。移除这些机制会直接导致长程任务性能劣化,证明稳定性设计对实际应用不可或缺。模型架构融合了理解专家和动作专家的双路径设计,通过统一状态-动作空间实现跨硬件知识迁移,同时保持对连续动作序列的精确生成能力。
这项研究的重要意义在于:验证了跨形态统一动作学习的可行性,确立了人类手部数据作为通用策略基础的地位,并强调可部署稳定性比离线指标更具实际价值。通过端到端的全链路设计,该工作为通用机器人操控智能的发展提供了可扩展的范式,标志着从实验室研究向真实场景落地迈出了实质性步伐。
原文和模型
【原文链接】 阅读原文 [ 3635字 | 15分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



