标签:Muon加速

不加算力,只改一个算法:Muon在万亿MoE模型中最高2倍加速

在针对大模型训练中优化器效率瓶颈的探索中,普林斯顿大学与纽约大学研究团队提出 Gram Newton-Schulz 方法,旨在提升高维稀疏模型训练中关键矩阵运算的计算...