北大林宙辰团队：从最优传输角度训练时序预测模型丨ICLR 2026

385 0 0

文章摘要

时间序列预测领域中，模型结构持续从循环网络演进至Transformer、频域与混合结构，但几乎所有方法在训练阶段依赖同一类损失函数，即以均方误差（MSE）为代表的点对点误差，领域研究重心过度倾斜于模型表达能力，而对损失函数所隐含的统计假设缺乏系统反思。这类损失函数的核心假设是标签序列中的各时间步可被视为给定历史条件下相互独立的预测对象，这一假设与时间序列数据的生成机制之间始终存在偏差——真实时间序列由随机过程演化，时间点间存在显著相关性，将多步预测拆解为独立回归任务会引入结构性偏差，使模型难以学习标签序列的整体形态、相关结构以及条件依赖关系。

针对上述问题，北京大学林宙辰团队提出DistDF：一种通过联合分布对齐训练预测模型的损失函数，对序列建模中“应当优化什么”这一长期被忽视的问题给出了新的回答。由于直接对齐预测序列与真实标签的条件分布面临样本稀缺难题，团队利用概率恒等式将条件分布匹配转化为联合分布匹配，结合最优传输理论证明，历史-预测联合分布与历史-标签联合分布的Wasserstein距离，是条件分布Wasserstein距离期望的上界，通过最小化该距离可实现无偏训练，还能利用全数据集样本提升分布距离估计的可靠性。DistDF为模型无关的损失函数，可适配各类预测模型架构。

大量实验验证了DistDF的优势：对比现有损失函数，它实现了无偏训练并取得最佳预测性能；消融实验显示同时对齐均值与协方差时效果最为显著；可视化分析表明其训练的模型能更好跟随序列突发变化，预测序列整体形态更接近真实数据；且它可适配各类模型架构，为模型提供更优训练信号。该研究还延伸至多任务学习场景，提出多任务学习的核心目标不应局限于对T个标签的逐点建模，而应转向对一个在任务维度上具有内在相关结构的随机过程进行整体建模，该研究揭示的问题具有广泛的普适性，DistDF的联合分布对齐思想不仅适用于时间序列预测，还可推广至语音、图像、文本等序列任务，是为多任务学习问题提供了一种更为通用的损失函数构造范式。