击败谷歌、英伟达!清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球
文章摘要
【关 键 词】 具身智能、Ctrl-World、世界模型、权威评测、实用落地
清华陈建宇团队联合斯坦福Chelsea Finn团队研发的Ctrl-World在全球具身智能权威评测WorldArena榜单中表现突出,不仅斩获具身任务能力全球第一,还在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度登顶,同时视频生成能力排名全球第二,成为在“视频生成质量”与“具身任务”两大维度均跻身顶级梯队的世界模型。具体来看,其策略评估一致性高达0.986,远超英伟达等同类模型;视频生成质量得分为59.70,超越谷歌Veo 3.1,仅次于阿里Wan 2.6。
WorldArena作为行业公认的具身世界模型“终极试炼场”,权威地位源于三大核心特质:一是由清华大学牵头联合8所全球顶尖学术机构共建的硬核基准,制定了涵盖16大核心指标、3大真实应用任务的科学评测标准;二是参赛阵容鼎盛,首批14款顶尖模型覆盖所有主流技术路线,结果成为行业研发的重要风向标;三是评测体系硬核,通过技术指标、实用任务、人类校验的三重考核,直接体现模型实际应用价值。
Ctrl-World的各项高分指标并非实验室数字,而是直接转化为实用价值:其与真实物理模拟器的策略评估结果相关性高达0.986,开发者可直接开展虚拟测试,无需搭建昂贵真实环境,大幅降低研发成本;轨迹精度与深度准确性优势为动作规划筑牢基础,有效避免抓空、碰撞等操作失误;生成的合成数据因具备物理合理性,可有效用于训练真实机器人策略,规避“虚拟训练、真实失效”的问题。
Ctrl-World的制胜密码在于三大核心技术:动作条件化架构直接注入机器人动作参数,精准模拟物理交互;物理引擎约束嵌入强制生成内容遵守牛顿力学定律;多视图联合与视频预测模型提升三维空间认知能力。它的优异表现标志着世界模型从“生成好看”向“真能干活”迈进,而WorldArena也将持续推动具身智能领域的创新发展,加速机器人自主智能的落地进程。
原文和模型
【原文链接】 阅读原文 [ 3595字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-seed-1-8-251228
【摘要评分】 ★★★★☆



