新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%

文章摘要
【关 键 词】 无监督、系统2、能量模型、Transformer、泛化
人类思维通常分为系统1(快速思维)和系统2(慢速思维),后者在处理复杂任务时尤为重要。然而,当前的大语言模型在系统2思维任务上表现不足,尤其是在需要多步骤推理的领域。为了解决这一问题,研究者提出了一种新的能量模型——基于能量的Transformer(EBT),它通过无监督学习模拟系统2思维过程。EBT通过为每个输入和候选预测分配能量值,并通过梯度下降优化预测,从而实现多步思考。与传统Transformer的单次前向推理不同,EBT允许每个预测进行多次优化,使得系统2思维在无监督学习中自然涌现。
在实验中,EBT在离散模态(如文本)和连续模态(如图像)中表现出色。在数据量、批次大小、参数规模等方面,EBT的扩展速率比主流Transformer++方法高出35%。在推理阶段,通过增加计算量,EBT在语言任务中的性能提升比Transformer++高出29%。此外,EBT在图像去噪任务中也优于扩散Transformer(DiT),且所需的前向传播次数更少。在处理分布外数据时,EBT的性能提升更为显著,表明其具备更强的泛化能力。
EBT的核心思想是通过能量函数为正确配置分配较低能量,为错误配置分配较高能量。通过梯度下降优化预测,EBT能够模拟人类的思考过程。为了实现高度可扩展性,研究者设计了结合Transformer架构和可扩展训练算法的EBT模型。EBT在训练过程中表现出高效的训练性能、良好的稳定性以及并行处理能力。
在训练过程中,研究者发现三种关键的能量曲面正则化技术对EBT的思考能力至关重要。重放缓冲区、Langevin动力学变体和随机化梯度下降步长共同提高了模型的系统2思维能力。通过消融实验,研究者验证了这些技术在提升系统2思维方面的有效性。
在语言任务中,EBT通过增加前向传播次数实现了高达29%的性能提升,而Transformer++在相同条件下几乎没有提升。这表明传统Transformer无法动态分配额外计算资源,而EBT通过延长思考时间显著提升了性能。此外,EBT的自我验证机制随着训练时间的增加,性能提升从4%–8%增长到10%–14%,表明在大规模训练下,EBT的自我验证机制将带来更显著的性能提升。
在图像去噪任务中,EBT仅需DiT所用前向传播次数的1%,即可达到相当甚至更优的去噪效果。随着前向传播次数增加,EBT在峰值信噪比(PSNR)上的性能提升速率远高于DiT。在处理分布外图像去噪任务时,EBT的思考能力明显优于DiT,生成的去噪图像质量更高,计算成本更低。
综上所述,EBT为扩展模型的学习能力与思维能力提供了一种极具前景的新范式。通过无监督学习,EBT在多个任务中表现出卓越的性能和泛化能力,尤其是在需要系统2思维的复杂任务中。
原文和模型
【原文链接】 阅读原文 [ 5250字 | 21分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★