RoboChallenge发布年度报告:评测标尺够权威吗?
文章摘要
【关 键 词】 具身智能、评测平台、机器人、技术挑战、行业趋势
具身智能行业正面临“Demo繁荣”与真实应用脱节的困境,视频演示的流畅操作与现实中的频繁失误形成鲜明对比。这一现象源于长期缺乏真实场景验证和模糊的评测标准,机器人从实验室到现实世界的过渡受到仿真环境与真实物理扰动差异的制约。为解决这一问题,2025年10月,原力灵机Dexmal与Hugging Face联合推出了全球首个具身智能大规模评测平台RoboChallenge,随后联合多家机构成立组委会,旨在建立统一的评测标尺。
RoboChallenge的核心设计聚焦于真机评测的标准化与公平性。平台摒弃传统模型提交方式,采用“远程机器人”交互范式,通过标准化低层级API实现全异步交互。平台拥有20台主流机型组成的测试集群,配备多视角观测相机,并基于耐用性、普及性和安全性等准则选择设备。测试过程中,平台发现“最佳区域效应”对任务成功率的影响,进而优化了评估协议和物体重置方法。环境因素如光照条件的研究表明,背景变化对结果影响较小。
Table30基准测试集包含30项多元场景任务,揭示了当前模型的显著能力差距。测试集涵盖家庭、厨房等场景,任务设计遵循难度全面、贴近现实等原则。结果显示,单任务与多任务模型的成功率差距达25%,多任务泛化能力亟待提升。任务分为三个梯队,部分任务如“做素三明治”和“给盆栽浇水”因时序性和状态记忆问题成为行业共性难题,所有模型成功率均为0%。这些失败案例表明,当前视觉语言动作(VLA)模型在“感知-理解-决策-执行”全闭环协同上仍有重大缺陷。
RoboChallenge的落地效果显著,用户增长和测试量呈指数级上升。平台吸引了全球开发者,累计真机测试超4万次,Table30测试集下载量达17k次。评测结果不仅提供了客观的技术标尺,还揭示了模型在精细操作和长程任务中的不足。平台发起人呼吁更多机构加入协作,计划推出涵盖更复杂任务的下一代Benchmark,推动技术向通用化、实用化发展。未来,随着任务场景和评估方法的迭代,具身智能模型的特性和不足将更清晰,为行业突破提供方向。
原文和模型
【原文链接】 阅读原文 [ 2823字 | 12分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆



