多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL
文章摘要
【关 键 词】 缩放定律、神经网络、大模型、性能预测、多变量
过去的神经网络缩放定律通常仅关注模型参数量、数据量和训练计算量与损失函数下降之间的关系,但真实的训练过程受到训练步数、批大小、学习率等众多变量的复杂影响,且这些变量之间存在瓶颈、阶段性拐点、过拟合及非单调变化等非线性关系。针对这一局限,研究人员提出了一种名为统一神经缩放定律的全新函数形式,将多变量同时变化、性能拐点、瓶颈限制、过拟合以及超参数反向作用统一纳入缩放定律中。
统一神经缩放定律采用分层嵌套的架构,在多维对数空间中将性能建模为一组平滑连接的超平面。其底层利用多变量断裂缩放定律描述对数空间中的阶段性转折面;中间层将整体缩放行为拆分为非瓶颈组件和瓶颈组件,以描述单一变量限制最终性能的情况;上层引入学习率等超参数带来的反向作用;最外层则加入不可约性能极限和过拟合项。这种设计使得神经网络的缩放行为能够摆脱简单的二维或三维公式描述,实现对多变量和复杂训练动态的全面建模。
在视觉和语言任务的广泛实验中,统一神经缩放定律展现出卓越的外推预测能力。在下游少样本图像分类任务中,该定律在超过六成的任务上取得了最佳外推表现;在语言建模及常识推理等下游任务中,其在近九成的任务中实现了最优外推。特别是在参数量、训练数据和训练步数同时变化的三变量设置下,该定律的外推误差显著低于现有的缩放定律形式,证明了传统多变量公式在描述复杂外推趋势时的不足。
此外,该定律在强化学习、网络宽度与深度同时变化以及批大小作为输入变量等多种复杂场景中均表现出广泛的适用性。一系列实验结果表明,统一神经缩放定律的核心优势在于能够在多变量同时变化的情况下,更稳定且准确地预测模型性能随规模扩展的演变走势。
原文和模型
【原文链接】 阅读原文 [ 1999字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆



