刚刚，LeCun团队让世界模型学会持续学习！

63 0 0

文章摘要

纽约大学联合LeCun初创公司AMI发布了JEPA系列的最新成果AdaJEPA，突破了传统世界模型在预训练后冻结参数的局限，实现了在环境交互中的持续学习。传统的隐空间世界模型在面临测试时分布偏移时，由于模型参数固定，预测容易失准并随着模型预测控制的短时域滚动规划被放大误差。AdaJEPA的核心创新在于引入了测试时自适应机制，使世界模型能够在部署过程中利用真实交互反馈实时调整编码器和预测器参数。

该框架的运行机制分为规划、执行、观测、更新和再规划五个连续步骤。模型首先在当前隐空间内通过模型预测控制规划动作序列，随后仅执行第一段动作并获取真实环境的下一帧观测作为自监督信号。接着，系统将真实状态转移存入在线缓存区，通过对比模型预测的隐状态与真实观测编码的隐状态进行对齐更新，最后利用更新后的模型立即进入下一轮规划。为防止表征空间崩溃，更新过程受到严格限制，仅对视觉编码器和预测器的最后几层进行单步梯度下降校准。

实验结果证实了该方法的有效性。在多个基准测试中，面对分布外偏移的未见形状或布局，AdaJEPA显著提升了规划成功率，在未见物体形状上几乎使成功率翻倍，在未见迷宫布局中也将GD和CEM规划成功率分别提升至78.7%和70.7%。同时，由于仅进行轻量级的参数微调，该在线更新机制引入的额外延迟极低，仅为0.01至0.03秒，证明了其无需重型在线训练即可换取更高性能的优势。

研究表明，世界模型无需在训练后保持参数冻结，通过在部署时利用真实交互结果进行轻量级自适应更新，即可显著增强模型在动态环境变化中的鲁棒性。