昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

 

文章摘要


【关 键 词】 开源模型千亿参数MoE技术训练优化性能提升

昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE,此模型基于先前的Skywork-13B模型中间checkpoint扩展而成,是首个将MoE Upcycling技术应用并落地的开源千亿MoE大模型。Skywork-MoE不仅性能强劲,同时具有更低的推理成本,并能在单台4090服务器上进行推理。

Skywork-MoE模型的总参数量为146B,激活参数量为22B,包含16个Expert,每个Expert大小为13B,每次激活其中2个Expert。模型评测显示,在相同激活参数量下,Skywork-MoE的能力接近70B的Dense模型,但推理成本降低了近3倍。

技术创新方面,为提升MoE模型的泛化性能,Skywork-MoE设计了两种训练优化算法:Gating Logits归一化操作和自适应的Aux Loss。这些算法增强了模型对top-2 experts的置信度,并保持token分发平衡,提升了整体的性能和泛化水平。

在模型训练基础设施方面,Skywork-MoE提出了两个重要的并行优化设计:Expert Data Parallel和非均匀切分流水并行,以提升大规模分布式训练的效率。

此外,Skywork-MoE通过基于Scaling Laws的实验,探索了影响Upcycling和From Scratch训练MoE模型的约束条件,并提供了一个经验规则:如果MoE模型的FLOPs是Dense模型的两倍以上,选择From Scratch训练MoE更佳。

Skywork-MoE支持在8×4090服务器上进行推理,通过非均匀Tensor Parallel并行推理方式,在合适的batch size内达到2200 tokens/s的吞吐。天工团队已完整开源了相关推理框架代码和安装环境。

这一开源举措旨在为社区贡献MoE训练经验,包括模型结构、超参选择、训练技巧及加速方法等,以期在探索更高效、低成本训练更强模型的道路上,为人工智能的发展贡献力量。

网易AI智能绘画

原文和模型


【原文链接】 阅读原文 [ 1848字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...