LeCun世界模型:48倍规划速度,单卡就能跑

AIGC动态3小时前发布 AIGCOPEN
58 0 0
LeCun世界模型:48倍规划速度,单卡就能跑

 

文章摘要


【关 键 词】 世界模型物理推理AIGC创新轻量架构机器人控制

LeWorldModel是由Yann LeCun研究团队提出的一种突破性世界模型架构,旨在以极简方式让AI通过连续视觉观察学习物理世界的底层规律。该系统仅依靠两条基础数学规则与端到端像素输入,在普通显卡上数小时内完成对真实环境动态的深度认知,动作规划速度较同类顶尖模型提升48倍,显著超越现有主流方法在效率、稳定性与泛化能力上的瓶颈。

整个系统实现真正的端到端训练,无需画面重建、奖励信号或特权状态信息,彻底抛弃传统复杂修补手段,以预测损失与高维特征正则化损失为核心优化目标。 研究引入SIGReg(草图化各向同性高斯正则化器),基于克莱姆-沃尔德定理,在高维特征空间中通过随机投影与Epps-Pulley统计测试保障分布健康,避免特征崩塌——这是现有方案普遍面临的致命问题,而该机制具备严格数学证明且仅需一个超参数调节,大幅提升训练可靠性。

系统采用轻量编码器(500万参数)与预测器(1000万参数)协同架构,总参数仅1500万,支持单张GPU数小时内完成全量训练;其高效设计使模型预测控制策略执行时间仅0.98秒,远优于DINO-WM的47秒。 在Push-T、Two-Room、Reacher及OGBench-Cube等多个经典场景中,LeWM均展现出优异表现:在二维任务中成功率达90分,大幅领先对手;在三维复杂抓取任务中亦以74分胜出;尤其在纯视觉输入条件下,其表现甚至超越可调用传感器数据的DINO-WM,体现其强大的底层物理表征能力。

研究进一步验证模型内部特征高度凝练且富有结构意义:线性探针可精准还原物体位置、偏转角度等微观物理坐标;独立解码器仅凭192维特征向量即可无损重构实时物理场景,几乎消除冗余噪声。 更重要的是,高维特征经可视化投射后呈现自然的空间拓扑关系,且训练过程中潜在路径随时间演化趋于平滑笔直,自发体现出物理运动的连续性与平滑性,呼应了生物神经演化逻辑。

最有力证据来自“期望违背”式物理常识检验:当系统检测到物体突发瞬移而非单纯颜色变化时,预测误差曲线骤然飙升,表明其已掌握“物理连续法则”的内在信念,而非仅依赖表面统计关联。 这种对空间不变性的深层理解,使其能够准确区分视觉扰动与物理规则颠覆——这种类人式的因果推理与预期判断能力,标志着人工智能从数据拟合迈向物理认知的重要跃迁。

原文和模型


【原文链接】 阅读原文 [ 3943字 | 16分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...