标签:LLM优化

Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境

在LLM优化领域,传统方法如Adam和新兴方法Muon各有优劣。Adam凭借动量和自适应学习率成为深度学习的主流选择,但在处理十亿级参数的混合精度训练时存在数值不...

Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

开源框架ShinkaEvolve通过三项核心技术实现了进化计算领域的突破性进展,将大语言模型(LLM)自我优化的样本效率提升数十倍。由Transformer作者Llion Jones创...