100B 的「跨级」跃升！元象发布最大 MoE 开源大模型，「高性能全家桶」系列全部免费

1,518 0 0

文章摘要

元象 XVERSE 于 9 月 13 日发布了中国最大的 MoE（Mixture of Experts）开源模型 XVERSE-MoE-A36B，该模型拥有 255B 的总参数和 36B 的激活参数，实现了与 100B 模型相媲美的性能，同时将训练时间缩短了 30%，推理性能提升了 100%，显著降低了每 token 的成本。这一高性能全家桶系列的开源，使得中小企业、研究者和开发者可以无条件免费商用，按需选择。

MoE 架构通过组合多个细分领域的专家模型，形成一个超级模型，突破了传统扩展定律的限制，能够在扩大模型规模的同时，不显著增加训练和推理的计算成本，保持模型性能的最大化。业界前沿模型如谷歌的 Gemini-1.5、OpenAI 的 GPT-4、马斯克旗下 xAI 公司的 Grok 等均采用了 MoE 架构。

元象基于 MoE 模型自主研发的 AI 角色扮演与互动网文 APP Saylo，在港台地区广受欢迎，下载量在中国台湾和香港娱乐榜分别位列第一和第三。MoE 训练范式的优势在于更高性能和更低成本，元象在通用预训练的基础上，使用海量剧本数据进行继续预训练，并采用大规模语料知识注入，提升了模型在特定应用领域的表现。

在商业应用方面，元象大模型是国内最早一批获得国家备案的大模型之一，已与 QQ 音乐、虎牙直播、全民 K 歌、腾讯云等进行了深度合作与应用探索，为多个领域提供了创新领先的用户体验。元象累计融资金额已超过 2 亿美元，投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和 CPE 源峰等。

在 MoE 技术自研与创新方面，元象在效率和效果上进行了多项探索。在效率方面，采用了 4D 拓扑设计、专家路由与预丢弃策略、通信与计算重叠等技术，优化了计算节点之间的通信路径，提高了整体计算效率。在效果方面，通过对比实验选择了合适的专家权重设置，并实现了数据动态切换和学习率调度策略的优化，提升了模型的泛化能力和学习速度。

通过这些设计与优化，元象 MoE 模型在训练时间、推理性能和模型效果上均优于其 Dense 模型 XVERSE-65B-2。此外，AICon 全球人工智能开发与应用大会·上海站成功举办，提供了大模型训练与推理机制、多模态融合、智能体Agent前沿进展等热点内容的深入剖析。QCon 会议则涵盖了 AI 应用开发、大模型基础设施与算力优化等多个方面，为参与者提供了全面的学习和交流机会。