标签:自适应学习率

Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境

在LLM优化领域,传统方法如Adam和新兴方法Muon各有优劣。Adam凭借动量和自适应学习率成为深度学习的主流选择,但在处理十亿级参数的混合精度训练时存在数值不...