LeCun的世界模型单GPU就能跑了

61 0 0

文章摘要

LeWorldModel（LeWM）是Yann LeCun团队提出的一种基于JEPA架构的轻量级世界模型训练方案，核心在于将复杂世界建模简化至本质，实现无需复杂技巧、仅用单张NVIDIA L40S显卡即可稳定训练。其最大亮点在于，完整规划仅需1秒，速度比现有大模型方案快48倍，且参数规模仅为1500万，远低于传统方法。系统通过编码器将像素画面压缩为latent特征，再由预测器结合当前状态与动作预测下一时刻特征，构成端到端训练闭环。关键创新在于仅使用两项损失函数：MSE预测损失用于学习动态规律，SIGReg正则损失以高斯约束防止特征坍塌，使模型避免崩溃并大幅降低超参调优难度。

在四项典型任务——Push-T（推箱子）、Reacher（机械臂目标抓取）、OGBench-Cube（3D抓方块）、Two-Room（2D导航）——上的对比实验证明，LeWM不仅显著超越此前的PLDM基线方法，还在多个指标上逼近甚至反超依赖大规模预训练的DINO-WM，尤其在推箱子任务中成功率达96%，较PLDM高出18%。值得注意的是，由于模型将观测数据压缩约200倍，使得推理规划成本骤降，实现接近实时响应；同时，latent表征中自然蕴含物理信息，可精准还原物体位置与姿态，预测精度接近100%，相较旧方法优势明显。

该模型还能敏锐识别物理违规现象：当物体发生瞬移这类违背物理法则的操作时，模型“惊讶值”显著上升；而单纯视觉扰动如颜色突变，则未引发异常反应，展现出对真实世界规则的内在理解能力。研究团队还开发了可视化解码器，展示了真实画面、重构影像及未来预测结果，证实模型已掌握场景核心结构与因果演变路径。

LeWM项目由Mila博士生Lucas Maes主导，联合纽约大学博士后Quentin Le Lidec、三星研究员Damien Scieur以及布朗大学教授Randall Balestriero共同推进，技术基础植根于多年JEPA优化经验与物理建模实践，并已开源相关代码与论文，供业界进一步探索与落地应用。