腾讯Robotics X开源HyVLA-0.5：基于亚毫米级指套UMI与真机强化，摆脱繁重遥操

AIGC动态1小时前发布 almosthuman2014

60 0 0

腾讯Robotics X开源HyVLA-0.5：基于亚毫米级指套UMI与真机强化，摆脱繁重遥操

文章摘要

腾讯联合多个团队发布了面向真实世界机器人操作任务的端到端具身智能模型HyVLA-0.5。该模型基于自研的高精度指套式数据采集软硬件，构建了超过一万小时的人类示教数据集，使模型在无需遥操作数据的情况下也能在多本体真机任务中实现高部署成功率。在模型架构方面，系统引入了基于流匹配的行动专家模块和紧凑记忆编码器，将视觉语言理解与动作生成解耦，并通过增量式动作块表示降低对特定机器人结构的依赖，为跨本体迁移奠定基础。

在训练与优化流程上，模型首先在大规模人类示教数据上进行持续预训练以学习通用行动先验，随后通过双轨监督微调验证同本体适配与跨本体迁移能力。在后训练阶段，研究团队首次将偏好优化算法系统性引入基于流匹配的强化学习中，通过采集成对的失败与成功纠正轨迹，将真实机器人执行中的失败案例转化为策略迭代动力，使多项真实任务的成功率接近百分之百。

在真机部署环节，系统设计了跨机器人形态的平台映射机制，并实现了异步推理与执行框架，结合延迟感知的轨迹拼接方法，有效减少了推理延迟并保障了高频闭环控制的平滑连续。评测结果显示，该模型在仿真基准中取得了超过百分之九十的成功率，并在多个不同形态的真实机器人平台上验证了出色的泛化与精细操作能力。

此次发布不仅展示了一个创新的视觉语言动作模型，更呈现了一条从高质量数据采集、模型架构设计到策略优化与真实部署的全栈式机器人学习路线。结合此前推出的具身智能开放平台及系列基础模型，相关团队正逐步构建起涵盖底层基础设施到行业多模态大模型的完整开源矩阵。这种布局旨在降低机器人厂商和应用开发商的软件能力门槛，通过开放模型的持续迭代与真实数据的积累，推动具身智能技术从实验室走向真实的物理世界。