文章摘要
【关 键 词】 物理智能、经验数据、结构化标注、具身学习、4D世界
Ropedia发布了一千万条、约10,000+小时的Human Experience数据集Xperience-10M,旨在为Physical AI提供高质量、结构化的“人类经验百科全书”。当前AI在语言与视觉领域已取得显著进展,但向物理世界迁移时面临核心瓶颈:缺乏能反映真实人类行动过程的经验数据。传统视频数据多为被动观看视角,缺少空间结构、手部交互轨迹及动作与后果间的因果关联,而研究表明,仅一小时结构化人类交互经验可能优于上千小时普通视频。英伟达EgoScale项目验证了第一视角人类数据规模与机器人性能之间存在稳定对数线性Scaling Law,20854小时数据使策略成功率提升54%,印证大规模人类经验是机器人灵巧操作的可预测监督来源。
Ropedia的数据构建围绕“4D Physical World”框架展开,即3D空间 + 时间 + 交互 + 后果四个闭环维度,强调“行为如何改变世界”必须内嵌于数据本体。Xperience-10M在同一时间轴下同步整合五类核心信息:第一视角视觉流、深度与空间拓扑、全身及手部动作轨迹、人-物-场景交互关系、以及任务描述与意图语义,所有维度原生对齐而非后期拼接,使其可直接输入模型训练流程。这区别于多数原始采集数据集,构成一套新型结构化智能数据标准。
为支撑持续数据产出,Ropedia推出轻量化可穿戴采集平台HOMIE,用户佩戴头戴设备即可在真实生活场景(如家庭厨房、工厂产线)中自然记录多模态经验,摆脱对专业动捕设备与受控环境的依赖,实现末端场景的大规模渗透式采集。更关键的是其背后的空间基础模型驱动的自动标注体系:通过模型-标注-训练闭环飞轮,持续提升空间定位、手物交互追踪、任务状态建模等能力,确保海量原始经验被稳定转化为高质量、可对齐的结构化数据。这种以模型为中心的数据管线迭代速度远超纯硬件或人工标注路径。
行业数据采集正经历从仿真主导、遥操作兴起,到以人为中心的经验数据范式的转移。相比Tesla Optimus或Figure依赖样板房的高成本采集,Ropedia方案具备真实场景泛化潜力,类似自动驾驶领域从Waymo精采模式转向Tesla影子模式的演进逻辑。其定位并非模型或硬件厂商,而是聚焦Physical AI底层基础设施——作为一家数据科学公司,专注生产“高辛烷值”的结构化经验燃料,服务全球前沿机器人与空间智能研发团队。真正拉开差距的,不是采集体量,而是将人类流动经验系统性转译为机器可学知识的能力。随着LeCun与李飞飞等人押注世界模型与空间智能,数据供给的可持续性与质量已成为下一阶段竞争的核心焦点。
原文和模型
【原文链接】 阅读原文 [ 5014字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★★★★☆



