标签：自适应学习率

Adam的稳+Muon的快？华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境

在LLM优化领域，传统方法如Adam和新兴方法Muon各有优劣。Adam凭借动量和自适应学习率成为深度学习的主流选择，但在处理十亿级参数的混合精度训练时存在数值不...

AIGC动态

3个月前