更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜
文章摘要
【关 键 词】 泛化评测、真机测试、具身智能、模型对比、评测标准
具身智能领域在过去一年呈现爆发式增长,但技术演示的繁荣掩盖了对模型真实泛化能力评估的缺失。当前行业普遍依赖预设环境中的“甜点位”或反复重试进行测试,缺乏统一、可复现、高信度的真机评测体系,导致研发资源可能偏向视觉效果突出但泛化能力薄弱的项目,存在“劣币驱逐良币”的风险。为应对这一核心痛点,中山大学联合自变量机器人、MBZUAI等机构在CVPR 2026 Embodied AI Workshop上推出ManipArena官方竞赛,旨在建立科学化的真机评测新标杆。
ManipArena构建了一个包含20个真机任务(5个初赛+15个决赛)、10812条遥操作轨迹的高规格评测平台,任务覆盖执行推理、语义推理与移动操作三类,强调以推理为核心而非简单抓取。其核心创新在于分层OOD(分布外)评估机制:每个任务进行10次测试,按难度分三级——T1–T4测域内能力,T5–T8引入视觉偏移(如形状变化但类别一致),T9–T10则为语义OOD(如全新材质或类别),从而生成完整的泛化衰减曲线。初步测试显示,主流VLA模型在单一变量变化时仍可维持一定性能,但面对复合型分布外测试(如同时改变耳机类型与颜色)时出现灾难性崩溃,平均得分从2.0骤降至0;且模型对物体形状相似度的敏感性显著高于语义归属,例如在眼镜放置任务中,形状相同仅尺寸缩小的儿童眼镜获满分10.0,而形状迥异的护目镜仅得5.0分且方差极大。这表明当前模型泛化能力脆弱,常在完美成功与彻底失败间横跳,难以实现优雅降级。
为保障评测严谨性,ManipArena采用绿幕可控环境,固定光源以消除阴影、反光等干扰,确保性能差异纯粹源于策略能力;并系统注入三层多样性参数:物理属性(材质、颜色、尺寸)、空间布局(位置与朝向组合)及语义组合(序列与类别分配),防止模型利用频率偏差捷径。数据层面提供每帧56维本体感觉信号,包括关节位置、末端位姿、夹爪状态、电机电流与关节速度等,其中电机电流作为力矩代理信号,对倒水、插线等需力觉反馈的任务至关重要。这些底层信号尚未被主流VLA模型充分利用,其引入直接推动力敏感策略的研究。
赛事强制“单一模型”规则——参赛者须用同一推理端点应对全部20项挑战,杜绝任务专属微调,倒逼通用能力提升。评分采用子任务部分得分制(每次测试满分10分),可精准定位失败环节。基于该框架的基线测试揭示:VLA模型(如π₀.₅-OneModel)具备更强精细操作与语义理解能力,但在多任务联合训练下易发生程序性知识遗忘;世界模型(如DreamZero)在空间泛化与分布外鲁棒性上显著占优(如篮子位置偏移时性能仅下降8%,而VLA降幅达44%–57%),却受限于毫米级精度与双臂协同等精细动作,且单步推理耗时比VLA长50–70倍。最终成绩显示,π₀.₅-OneModel以640.5分领先,DreamZero为500.3分,多数任务成功率仍为0%,印证评测极高挑战性。
ManipArena同步采用Server-Side远程真机架构,参赛者仅需部署HTTP推理端点,无需自备硬件,大幅降低参与门槛;所有任务均使用统一双臂机器人平台,确保公平性,并保护模型权重本地存储。赛事设置阶梯式现金与硬件奖励,并鼓励基于评测结果发表学术论文,旨在将其打造为长期开放的研究基准平台,通过科研与产业双向赋能,加速具身智能向真实世界规模化落地演进。
原文和模型
【原文链接】 阅读原文 [ 4973字 | 20分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★★★★★



