
文章摘要
【关 键 词】 机器学习、模型微调、LoRA技术、参数优化、强化学习
LoRA(低秩适配)作为一种参数高效微调方法,在特定条件下能够与全参数微调(FullFT)达到相近性能。 Thinking Machines的最新研究通过监督微调和强化学习实验,系统探讨了LoRA与FullFT性能对齐的关键因素。实验结果表明,在小到中等规模数据集上,LoRA与FullFT表现相当,但当数据量超出LoRA容量时性能会下降。研究特别指出,将LoRA应用于所有权重矩阵(尤其是MLP和MoE层)时效果显著提升,而仅应用于注意力层的效果反而较差。
批处理规模对LoRA性能存在明显影响。实验数据显示,随着批量增大,LoRA与FullFT的性能差距会扩大,这种差距与秩无关,可能是由于矩阵乘积参数化的优化动态特性所致。 在OpenThoughts3数据集子集的测试中,批量32时的性能差距明显小于大批量场景,且随着训练进行逐渐缩小。
在强化学习场景中,LoRA展现出独特优势。使用策略梯度算法时,即使秩低至1,LoRA仍能完全匹配FullFT的学习效果。 在MATH和GSM数据集上的实验表明,LoRA具有更宽的有效学习率范围,且能达到与FullFT相同的峰值性能。DeepMath数据集上的大规模实验进一步验证了这一结论,不同规模的LoRA在最优学习率设定下与FullFT的训练进展几乎完全一致。
超参数设置方面,研究发现LoRA的最优学习率通常是FullFT的10倍,这一规律在监督学习和强化学习中均成立。 研究人员基于14个不同模型的测试数据,建立了可预测最优学习率的函数模型。值得注意的是,LoRA的初始化方式会引入隐式的学习率调度机制,导致短期训练(约100步内)的最优学习率倍数可能达到15倍,随着训练时长增加逐渐收敛至10倍。
研究最终确定了LoRA与FullFT性能相当的两个核心条件:全面应用于网络各层(特别是MLP/MoE层),以及训练参数容量足够覆盖学习需求。 当满足这两个条件时,LoRA不仅能复现FullFT的学习动态,还能在容量范围内保持相近的性能表现。这些发现为LoRA的实践应用提供了重要指导,同时也为理解机器学习中的基础优化问题提供了新的视角。
原文和模型
【原文链接】 阅读原文 [ 2150字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★