标签:优化器

【 ICLR 2025 】Adam 有了 mini 版:内存减半,吞吐量可提升 50%

在大语言模型训练中,内存开销是一个关键挑战,尤其是Adam优化器的高内存需求。为了解决这一问题,研究团队提出了一种轻量化优化器Adam-mini,通过分析Transf...

开源赛道太挤了!月之暗面开源新版Muon优化器

月之暗面近期开源了改进版优化器Muon,其计算效率较AdamW提升2倍,并在相同训练预算下显著提升模型性能。通过引入权重衰减和一致的RMS更新技术,Muon成功解决...