世界模型开始做减法？LeCun团队和清华团队给出两种思路

AIGC动态2小时前发布 almosthuman2014

54 0 0

文章摘要

本文聚焦于世界模型研究中的两项重要进展，分别从建模简洁性与推理范式优化角度展开。LeWorldModel提出首个能从原始像素端到端稳定训练的JEPA模型，仅用两个损失项（下一步嵌入预测与高斯正则）即实现可训练的潜在动态系统；该模型参数约1500万，在单张GPU上数小时内完成训练，规划速度相较基线模型最高提升48倍，并在2D/3D控制任务中保持竞争力。更关键的是，通过物理量探测实验发现其潜在空间可编码有意义的物理结构，而“惊讶度”评估表明模型能可靠识别物理上不合理的事件。其架构由视觉编码器与动力学预测器构成，全程联合训练，无预训练依赖；决策阶段则直接在潜在空间内进行模型预测控制，构建出从输入到动作的完整闭环。

Fast-WAM则挑战主流WAM的“先想象再执行”范式，质疑显式未来生成是否必要。该方法设计核心在于区分训练与推理能力：保留视频协同训练以学习环境动态，但在测试阶段跳过未来视频展开与去噪步骤，转而直接输出动作。实验验证，只要训练中具备视频建模能力，即使测试时完全不进行未来想象，性能仍可媲美传统模型；而若移除视频协同训练，性能显著下降。该策略将高延迟的迭代生成环节大幅简化——推理延迟降至190毫秒，远低于现有方案（提速超4倍），已在LIBERO、RoboTwin及真实毛巾折叠等任务上取得优异表现，证明当前模型的关键优势不在于实时生成未来，而在于训练过程中对动态演化规律的高效捕捉。

综合来看，两项工作分别指向世界模型发展的两大方向：一是通过精简结构降低训练门槛，使复杂系统退化为最小可控闭环；二是重构推理机制，剥离冗余生成过程，强调“学习能力”的内在固化。二者共同推动世界模型从复杂模仿走向本质建模，既提升了实用效率，又深化了对“世界如何被理解”的认知基础。LeWM 仅约1500万参数，可在单张 GPU 上数小时内完成训练；相比基于基础模型的世界模型最高可提升约48倍；Fast-WAM 在无需具身预训练的情况下，在 LIBERO、RoboTwin 以及真实世界的毛巾折叠任务中均取得了具有竞争力的表现；只要保留训练阶段的视频建模能力，即使移除测试时的显式想象过程，模型性能仍能保持；反之，如果缺少视频建模能力，性能则会明显下降。