标签:多变量

多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL

过去的神经网络缩放定律通常仅关注模型参数量、数据量和训练计算量与损失函数下降之间的关系,但真实的训练过程受到训练步数、批大小、学习率等众多变量的复...