LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能

LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能

 

文章摘要


【关 键 词】 LoRA参数冗余多任务安全对齐持续学习

LoRI 技术通过大幅减少 LoRA 的可训练参数,显著降低了大型语言模型微调的资源成本,同时保持了强劲的模型性能。 研究团队在数学推理、代码生成、安全对齐以及自然语言理解任务上测试了 LoRI,发现仅训练 LoRA 参数的 5%,LoRI 就能匹配或超越全量微调、标准 LoRA 和 DoRA 等方法的性能。这一发现表明,增量参数存在显著冗余,而 LoRI 通过减少可训练参数数量,进一步优化了 LoRA。

LoRI 的核心在于保持低秩矩阵 A 作为固定的随机投影,同时使用任务特定的稀疏掩码训练矩阵 B。 通过选择所有层和投影中具有最高幅度的元素来执行校准过程,LoRI 提取了稀疏掩码,从而保留了 B 中最关键的元素。实验表明,即使 B 具有 90% 的稀疏性且 A 保持冻结状态,LoRI 仍能保持良好性能,这表明适应过程不需要更新 A,且 B 存在相当大的冗余。

多任务学习中,LoRI 通过实现适配器合并而无需手动选择合并方法,解决了直接合并异构 LoRA 时常见的参数干扰问题。 通过使用固定的、随机初始化的投影 A,LoRI 将任务特定的适配器映射到近似正交的子空间,从而减少合并多个 LoRI 时的干扰。此外,LoRI 还提供了一种轻量级的持续学习方法,用于调整模型同时保持安全性,其中训练是在任务间顺序进行的。

在安全关键场景中,LoRI 通过特定任务掩码利用矩阵 B 的稀疏性来减轻灾难性遗忘。 这种跨任务参数更新的隔离促进了干扰最小化的持续学习,同时保持了安全性和任务有效性。实验结果表明,LoRI 在减轻安全对齐的灾难性遗忘方面显著优于 LoRA,同时在下游任务上保持强劲表现。

LoRI 在多种基准上的实验结果表明,其达到或超过了全量微调(FFT)、LoRA 和其他 PEFT 方法的性能,同时使用的可训练参数比 LoRA 少 95%。 例如,在使用 Llama-3 的 HumanEval 上,B 中具有 90% 稀疏度的 LoRI 比 LoRA 高出 17.3%。此外,LoRI 适配器的串联合并总体上始终优于 LoRA 适配器,与单任务 LoRA 基线的性能非常接近。

总体而言,LoRI 提供了一种轻量级且有效的方法来构建安全适配器,在支持下游任务适应的同时保持对齐。 通过减少可训练参数数量、优化适配器合并以及减轻灾难性遗忘,LoRI 在降低资源成本的同时,显著提升了模型的多任务能力和安全性。

原文和模型


【原文链接】 阅读原文 [ 2457字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...