击败谷歌、英伟达！清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球

AIGC动态2个月前发布 almosthuman2014

376 0 0

击败谷歌、英伟达！清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球

文章摘要

【关键词】 具身智能、Ctrl-World、世界模型、权威评测、实用落地

清华陈建宇团队联合斯坦福Chelsea Finn团队研发的Ctrl-World在全球具身智能权威评测WorldArena榜单中表现突出，不仅斩获具身任务能力全球第一，还在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度登顶，同时视频生成能力排名全球第二，成为在“视频生成质量”与“具身任务”两大维度均跻身顶级梯队的世界模型。具体来看，其策略评估一致性高达0.986，远超英伟达等同类模型；视频生成质量得分为59.70，超越谷歌Veo 3.1，仅次于阿里Wan 2.6。

WorldArena作为行业公认的具身世界模型“终极试炼场”，权威地位源于三大核心特质：一是由清华大学牵头联合8所全球顶尖学术机构共建的硬核基准，制定了涵盖16大核心指标、3大真实应用任务的科学评测标准；二是参赛阵容鼎盛，首批14款顶尖模型覆盖所有主流技术路线，结果成为行业研发的重要风向标；三是评测体系硬核，通过技术指标、实用任务、人类校验的三重考核，直接体现模型实际应用价值。

Ctrl-World的各项高分指标并非实验室数字，而是直接转化为实用价值：其与真实物理模拟器的策略评估结果相关性高达0.986，开发者可直接开展虚拟测试，无需搭建昂贵真实环境，大幅降低研发成本；轨迹精度与深度准确性优势为动作规划筑牢基础，有效避免抓空、碰撞等操作失误；生成的合成数据因具备物理合理性，可有效用于训练真实机器人策略，规避“虚拟训练、真实失效”的问题。

Ctrl-World的制胜密码在于三大核心技术：动作条件化架构直接注入机器人动作参数，精准模拟物理交互；物理引擎约束嵌入强制生成内容遵守牛顿力学定律；多视图联合与视频预测模型提升三维空间认知能力。它的优异表现标志着世界模型从“生成好看”向“真能干活”迈进，而WorldArena也将持续推动具身智能领域的创新发展，加速机器人自主智能的落地进程。