
文章摘要
【关 键 词】 具身智能、多模态数据集、真实场景、人机交互、技术创新
全球首个真实世界具身多模态数据集WIYH正式发布,标志着具身智能领域取得重要突破。该数据集由它石智航(TARS)推出,以Human-centric为核心,整合了视觉、语言、触觉和动作多模态数据,计划于2025年12月开放共享。WIYH包含超过10万条真实人类操作视频,覆盖40余种任务类型和100多种人类技能,使用13种以上传感器,涉及520多种物体。每条数据均包含6种标注,实现了多模态数据的同步标记,为机器人学习复杂动作和跨场景泛化提供了坚实的数据基础。
WIYH数据集的两大突破在于真实场景覆盖和多模态数据融合。与传统的实验室或工厂采集环境不同,WIYH基于酒店洗衣、超市装配等真实工作场景,采集了标准操作流程数据。例如超市取物场景,完整记录了从挑选商品到完成取放的全过程;酒店叠衣场景则展示了从取出毛巾到收纳的完整动作链。这些数据通过多层标注实现多维同步,包括语义标注、深度信息、交互物体的可供性、语言推理以及手部与末端动作轨迹等。
该数据集具备真实、丰富、全面和海量四大特点。数据来源于真实具身操作任务,覆盖多个行业和操作技能,包含多模态标注,规模庞大,能够支撑通用具身智能模型的训练和应用。WIYH通过自研采集套件保证多源信息的精确对齐,依托云端基础大模型完成高精度标注,并在真实生活场景中采集数据,显著提升了数据的真实性和多样性,同时降低了成本。它石智航首席科学家丁文超博士表示,WIYH为未来实现具身基座模型的规模定律奠定了基础。
高质量数据是具身智能发展的核心挑战。目前用于训练的数据主要分为互联网视频数据、仿真数据和真实数据三类,但各自存在局限性。互联网数据质量参差不齐,仿真数据真实性有限,真机数据采集成本高。特斯拉等公司依赖内部真实数据训练机器人,但未开源限制了行业发展。WIYH强调以人为中心,区别于传统机器人中心的数据采集方式,直接从人类操作中获取多模态信息,推动具身智能接近人类水平。
它石智航成立于2025年2月,核心团队由自动驾驶和机器人领域的领军人物组成。公司以Human-Centric为核心,通过WIYH数据集和AI World Engine世界模型构建了数据—模型闭环,采用全栈开发路线,覆盖算法、硬件本体和核心应用。成立不到一年,它石智航已完成两轮融资,总额达2.42亿美元,创下中国具身智能领域融资纪录。此次WIYH的发布,进一步巩固了其在数据范式上的领先地位。
原文和模型
【原文链接】 阅读原文 [ 2787字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★