文章摘要
【关 键 词】 世界模型、极简训练、单GPU、物理理解、高效规划
LeWorldModel(LeWM)是Yann LeCun团队提出的一种基于JEPA架构的轻量级世界模型训练方案,核心在于将复杂世界建模简化至本质,实现无需复杂技巧、仅用单张NVIDIA L40S显卡即可稳定训练。其最大亮点在于,完整规划仅需1秒,速度比现有大模型方案快48倍,且参数规模仅为1500万,远低于传统方法。系统通过编码器将像素画面压缩为latent特征,再由预测器结合当前状态与动作预测下一时刻特征,构成端到端训练闭环。关键创新在于仅使用两项损失函数:MSE预测损失用于学习动态规律,SIGReg正则损失以高斯约束防止特征坍塌,使模型避免崩溃并大幅降低超参调优难度。
在四项典型任务——Push-T(推箱子)、Reacher(机械臂目标抓取)、OGBench-Cube(3D抓方块)、Two-Room(2D导航)——上的对比实验证明,LeWM不仅显著超越此前的PLDM基线方法,还在多个指标上逼近甚至反超依赖大规模预训练的DINO-WM,尤其在推箱子任务中成功率达96%,较PLDM高出18%。值得注意的是,由于模型将观测数据压缩约200倍,使得推理规划成本骤降,实现接近实时响应;同时,latent表征中自然蕴含物理信息,可精准还原物体位置与姿态,预测精度接近100%,相较旧方法优势明显。
该模型还能敏锐识别物理违规现象:当物体发生瞬移这类违背物理法则的操作时,模型“惊讶值”显著上升;而单纯视觉扰动如颜色突变,则未引发异常反应,展现出对真实世界规则的内在理解能力。研究团队还开发了可视化解码器,展示了真实画面、重构影像及未来预测结果,证实模型已掌握场景核心结构与因果演变路径。
LeWM项目由Mila博士生Lucas Maes主导,联合纽约大学博士后Quentin Le Lidec、三星研究员Damien Scieur以及布朗大学教授Randall Balestriero共同推进,技术基础植根于多年JEPA优化经验与物理建模实践,并已开源相关代码与论文,供业界进一步探索与落地应用。
原文和模型
【原文链接】 阅读原文 [ 1621字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★☆☆



