昆仑万维开源 2 千亿稀疏大模型天工 MoE，全球首创能用 4090 推理

AIGC动态1年前 (2024)发布 aitechtalk

2,389 0 0

文章摘要

昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE，此模型基于先前的Skywork-13B模型中间checkpoint扩展而成，是首个将MoE Upcycling技术应用并落地的开源千亿MoE大模型。Skywork-MoE不仅性能强劲，同时具有更低的推理成本，并能在单台4090服务器上进行推理。

Skywork-MoE模型的总参数量为146B，激活参数量为22B，包含16个Expert，每个Expert大小为13B，每次激活其中2个Expert。模型评测显示，在相同激活参数量下，Skywork-MoE的能力接近70B的Dense模型，但推理成本降低了近3倍。

技术创新方面，为提升MoE模型的泛化性能，Skywork-MoE设计了两种训练优化算法：Gating Logits归一化操作和自适应的Aux Loss。这些算法增强了模型对top-2 experts的置信度，并保持token分发平衡，提升了整体的性能和泛化水平。

在模型训练基础设施方面，Skywork-MoE提出了两个重要的并行优化设计：Expert Data Parallel和非均匀切分流水并行，以提升大规模分布式训练的效率。

此外，Skywork-MoE通过基于Scaling Laws的实验，探索了影响Upcycling和From Scratch训练MoE模型的约束条件，并提供了一个经验规则：如果MoE模型的FLOPs是Dense模型的两倍以上，选择From Scratch训练MoE更佳。

Skywork-MoE支持在8×4090服务器上进行推理，通过非均匀Tensor Parallel并行推理方式，在合适的batch size内达到2200 tokens/s的吞吐。天工团队已完整开源了相关推理框架代码和安装环境。

这一开源举措旨在为社区贡献MoE训练经验，包括模型结构、超参选择、训练技巧及加速方法等，以期在探索更高效、低成本训练更强模型的道路上，为人工智能的发展贡献力量。