马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B

AIGC动态2年前 (2024)发布 AIera

3,949 0 0

马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B

文章摘要

在当前大模型算力需求极高的背景下，浪潮信息推出了一款名为源2.0-M32的混合专家模型。该模型以32个专家的架构，总参数量达到400亿，但激活参数仅需37亿，以约1/19的算力和激活参数，却能对标性能与Llama 3-70B相当。这一创新在大幅降低资源消耗的同时，保持了模型性能。

源2.0-M32在MATH和ARC-Challenge等基准测试中展现出了超越Llama 3-70B的准确率，尤其在编码和MMLU任务中，实现了与Llama 3-70B相当的性能。在代码生成任务中，尽管源2.0-M32的激活参数和计算量显著低于DeepseekV2和Llama 3-70B，但其准确率仍达到了90%以上。

模型架构方面，源2.0-M32采用了基于局部过滤增强的注意力机制，有效提升了自然语言的理解能力。此外，该模型引入了一种新型的门控网络——注意力路由器（Attention Router），该算法结构通过改进专家之间的协同性度量，解决了传统门控机制中专家间关联性缺失的问题，从而提高了模型的推理能力和运行效率。

综合来看，源2.0-M32以其创新的算法结构和高效的算力使用，展示了在大模型领域降低成本、提升性能的潜力，为解决算力荒提供了新的途径。