更全面的具身智能真机评测来了！CVPR 2026 ManipArena挑战赛邀你打榜

AIGC动态2天前发布 almosthuman2014

178 0 0

更全面的具身智能真机评测来了！CVPR 2026 ManipArena挑战赛邀你打榜

文章摘要

具身智能领域在过去一年呈现爆发式增长，但技术演示的繁荣掩盖了对模型真实泛化能力评估的缺失。当前行业普遍依赖预设环境中的“甜点位”或反复重试进行测试，缺乏统一、可复现、高信度的真机评测体系，导致研发资源可能偏向视觉效果突出但泛化能力薄弱的项目，存在“劣币驱逐良币”的风险。为应对这一核心痛点，中山大学联合自变量机器人、MBZUAI等机构在CVPR 2026 Embodied AI Workshop上推出ManipArena官方竞赛，旨在建立科学化的真机评测新标杆。

ManipArena构建了一个包含20个真机任务（5个初赛+15个决赛）、10812条遥操作轨迹的高规格评测平台，任务覆盖执行推理、语义推理与移动操作三类，强调以推理为核心而非简单抓取。其核心创新在于分层OOD（分布外）评估机制：每个任务进行10次测试，按难度分三级——T1–T4测域内能力，T5–T8引入视觉偏移（如形状变化但类别一致），T9–T10则为语义OOD（如全新材质或类别），从而生成完整的泛化衰减曲线。初步测试显示，主流VLA模型在单一变量变化时仍可维持一定性能，但面对复合型分布外测试（如同时改变耳机类型与颜色）时出现灾难性崩溃，平均得分从2.0骤降至0；且模型对物体形状相似度的敏感性显著高于语义归属，例如在眼镜放置任务中，形状相同仅尺寸缩小的儿童眼镜获满分10.0，而形状迥异的护目镜仅得5.0分且方差极大。这表明当前模型泛化能力脆弱，常在完美成功与彻底失败间横跳，难以实现优雅降级。

为保障评测严谨性，ManipArena采用绿幕可控环境，固定光源以消除阴影、反光等干扰，确保性能差异纯粹源于策略能力；并系统注入三层多样性参数：物理属性（材质、颜色、尺寸）、空间布局（位置与朝向组合）及语义组合（序列与类别分配），防止模型利用频率偏差捷径。数据层面提供每帧56维本体感觉信号，包括关节位置、末端位姿、夹爪状态、电机电流与关节速度等，其中电机电流作为力矩代理信号，对倒水、插线等需力觉反馈的任务至关重要。这些底层信号尚未被主流VLA模型充分利用，其引入直接推动力敏感策略的研究。

赛事强制“单一模型”规则——参赛者须用同一推理端点应对全部20项挑战，杜绝任务专属微调，倒逼通用能力提升。评分采用子任务部分得分制（每次测试满分10分），可精准定位失败环节。基于该框架的基线测试揭示：VLA模型（如π₀.₅-OneModel）具备更强精细操作与语义理解能力，但在多任务联合训练下易发生程序性知识遗忘；世界模型（如DreamZero）在空间泛化与分布外鲁棒性上显著占优（如篮子位置偏移时性能仅下降8%，而VLA降幅达44%–57%），却受限于毫米级精度与双臂协同等精细动作，且单步推理耗时比VLA长50–70倍。最终成绩显示，π₀.₅-OneModel以640.5分领先，DreamZero为500.3分，多数任务成功率仍为0%，印证评测极高挑战性。

ManipArena同步采用Server-Side远程真机架构，参赛者仅需部署HTTP推理端点，无需自备硬件，大幅降低参与门槛；所有任务均使用统一双臂机器人平台，确保公平性，并保护模型权重本地存储。赛事设置阶梯式现金与硬件奖励，并鼓励基于评测结果发表学术论文，旨在将其打造为长期开放的研究基准平台，通过科研与产业双向赋能，加速具身智能向真实世界规模化落地演进。