文章摘要
【关 键 词】 机器人、开源模型、空间感知、复杂任务、泛化能力
宇树科技正式开源其通用人形机器人操作大模型UnifoLM-VLA-0,该模型通过持续预训练实现了单一策略完成多项复杂长程操作任务的能力。模型在空间感知方面表现突出,能在零样本场景下精准推理目标位置、生成运动轨迹并完成物体检测与定位。其核心突破在于仅使用340小时真机数据进行离散动作预测训练,通过整合动作分块预测和动力学约束,显著提升了对物理交互规律的理解能力。
模型在LIBERO仿真基准测试中获得98.7分的平均分,优于同类主流模型。特别设计的”no thinking”模式使空间理解能力内化,更适合真实环境中的低延迟实时操作。真机测试中,模型在单一策略下稳定完成12类复杂任务,包括多机协作、带阻力操作和抗干扰纠错等场景。例如两台机器人协同整理桌面物品,或在人为干扰下仍能按颜色正确分类水果。
该技术标志着从碎片化任务训练向开放场景通用化能力的重要进展。宇树科技通过构建覆盖机器人与通用场景的多任务数据集,实现了几何空间与语义逻辑的对齐。模型展现的少数据高效训练特性,为人形机器人领域提供了可扩展的技术路径。随着硬件量产优势的确立,此次算法突破进一步强化了企业在全产业链的技术壁垒。
原文和模型
【原文链接】 阅读原文 [ 1258字 | 6分钟 ]
【原文作者】 机器人前瞻
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



