全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

AIGC动态1年前 (2024)发布 AIera

2,524 0 0

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

文章摘要

【关键词】 Arctic模型、Dense-MoE架构、高效计算、开源代码、推理优化

Snowflake的Arctic模型以其128位专家和4800亿参数的规模，成为目前最大的开源模型。该模型基于Dense-MoE架构设计，由一个10B的稠密Transformer模型和128×3.66B的MoE MLP组成，并在3.5万亿个token上进行了训练。Arctic模型的特点是其庞大的规模和稀疏性，使其能够在计算资源上实现高效利用，仅用不到Llama 3 8B模型一半的资源就达到了相同的性能指标。

Arctic模型在企业智能指标和学术基准上均展现出优异的表现。在企业智能指标方面，包括编码（HumanEval+和MBPP+）、SQL生成（Spider）和指令遵循（IFEval）等任务中，Arctic超越了其他开源模型，如Mixtral 8×7B。在学术基准方面，尽管Arctic在MMLU等世界知识指标上的得分较低，但这与其保持较小训练预算的目标相符，且这些指标并不一定与企业智能直接相关。

Arctic模型的训练效率得益于其独特的Dense-MoE Hybrid transformer架构，该架构结合了一个10B规模的稠密Transformer模型与一个128×3.66B规模的残差MoE MLP。通过top-2 gating的方式，Arctic在生成期间只选择了17B个参数保持活跃，从而实现了资源高效的训练和推理。

此外，Arctic模型还展现了出色的推理效率。在较小batch的交互式推理中，Arctic的内存读取次数比其他模型少，实现了更快的推理性能。在较大batch size的情况下，Arctic的计算需求减少了4倍，实现了高吞吐量的推理。

Arctic模型的开源代码已在GitHub上发布，允许任何人将其用于研究、产品、原型等。Snowflake正在与英伟达TensorRT-LLM和vLLM合作，为Arctic模型开发初始的推理实现，并针对批大小为1的交互式使用进行了优化。这标志着企业级AI训练成本的降低，使得用户可以以极低的成本创建满足企业需求的高质量定制模型。