首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析

首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析

 

文章摘要


【关 键 词】 具身智能开源模型跨本体泛化机器人控制分层推理

北京智源人工智能研究院正式开源RoboBrain-X0,这是一个能够在零样本泛化和轻量微调条件下驱动多种真实机器人完成复杂任务的具身智能基座大模型。其核心突破在于通过统一的动作空间与分层任务拆解,实现了「一个基座模型,N种身体」的通用具身智能路径。该模型源自RoboBrain的多模态基座能力,融合了真实机器人动作数据,通过统一建模视觉、语言与动作,实现了跨本体的泛化与适配。

评测显示,RoboBrain-X0在多个主流机器人本体上的真机实验中表现出色。零样本迁移能力突出,仅靠统一预训练即可在不同本体上完成pick&place等任务;小样本微调效应显著,每个任务仅需50条样本即可超越行业主流基线;控制一致性强,不同本体执行同一任务时动作原语序列高度一致。这些结果表明,RoboBrain-X0不仅在理论上具备通用基座能力,更在工程实践中迈出了规模化落地的关键一步。

面对当前具身智能领域的本体泛化困境,RoboBrain-X0通过三层对齐实现了突破。首先,统一动作空间,将不同类型机器人的控制信号映射到同一个动作空间;其次,离散化动作词汇,将连续高维的物理操作轨迹离散为可迁移的动作原语token;最终实现跨本体的知识和能力共享。这一机制解决了不同机器人因动作空间、自由度和动力学特性差异导致的智能迁移难题。

模型的分层规划与推理机制是其另一项关键创新。通过将「语言到动作」拆解为意图解析、动作原语推理和控制信号解码三层可解释的推理链路,大幅提升了复杂任务的理解与执行效率。训练采用分阶段策略:先强化空间理解与语义规划能力,再建立语义到物理控制的映射,最后针对现实难题进行定向强化。推理时则通过分层机制确保异构机器人下的稳定策略输出。

伴随模型开源的还有核心训练数据集RoboBrain-X0-Dataset,该系统性地赋予模型从通用感知到具身理解、从多样化动作到泛化技能的两大核心能力。数据集不仅包含传统视觉问答数据,还扩展了与物理交互强相关的任务数据,并通过统一格式化与质量控制确保开箱即用。

实验结果表明,RoboBrain-X0在Libero仿真平台和真实机器人硬件上的表现全面超越基线模型。在仿真评测中综合成功率高达96.3%;真机评测总体成功率达到48.9%,是基线模型的2.5倍,基础抓放任务甚至实现100%成功率。这些数据证明其跨本体架构能有效将抽象任务意图转化为精准物理动作。

RoboBrain-X0的开源标志着具身智能进入新阶段。其统一预训练基座实现了零微调条件下驱动多种异构真实机器人,为行业提供了可复用、可扩展的通用解决方案。这不仅将改变研发重心从底层重复造轮子转向高层创新,也为机器人产品快速适配智能能力奠定基础。虽然复杂人机交互等方向仍需进化,但「一个大脑,多种身体」的愿景已迈出实质性步伐。

原文和模型


【原文链接】 阅读原文 [ 3189字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...