国内首个!具身数采「黑箱」正式开源,具身数据昂贵的时代结束了
文章摘要
【关 键 词】 具身智能、开源项目、数据采集、模型训练、降本增效
自变量机器人公司近期开源了XRZero-G0项目,提供了一套涵盖无本体数据采集、质检、训练及真机评测的完整链路,并开放了包含2000多小时、覆盖3000个任务的多模态数据集。该项目旨在解决具身智能领域数据采集成本高、质量差及不可复用的行业痛点,通过操作员佩戴设备工作而现场无需机器人的方式,大幅降低了数据获取门槛。
在数据采集环节,XRZero-G0引入了三层质量检测机制以确保数据可用性。首先,通过头显全局相机与左右手腕相机组成三视角系统,结合边缘计算进行时空对齐,将精度控制在4毫米以内,有效解决了遮挡与漂移问题。其次,系统引入自动逆运动学验证,自动过滤超出机器人关节极限的动作。最后,通过真机开环回放进行最终筛选。这三道程序使入库数据的有效率提升至85%以上,同时简单任务的采集速度提升了2.33倍,峰值采集速度达到每小时93.2条轨迹。
在模型训练方面,该项目通过系统性实验确定了真机数据与无本体数据混合训练的最佳配比。研究发现,采用10:1的数据配比即50条真机数据与500条无本体数据,能够使模型成功率与纯500条真机数据训练持平,从而将真机数据用量削减90%,总成本降低至传统方式的二十分之一,实现了20倍的成本效率跃升。这一现象被归结为少样本物理锚定效应。
此外,由于背包式采集过程天然包含了视角、高度和光照的动态变化,这些丰富的环境噪声显著增强了模型的鲁棒性。训练出的模型展现出卓越的零样本跨本体迁移能力,能够在未见真机数据的情况下,直接部署于不同型号的机器人并成功执行复杂物理任务。自变量公司通过全量开源这一标准化工具链,致力于推动具身智能行业的数据飞轮运转,加速产业从演示阶段向数据驱动阶段的实质性迈进。
原文和模型
【原文链接】 阅读原文 [ 1887字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆



