中国最大开源MoE模型，255B参数无条件免费商用，元象发布

2,011 0 0

文章摘要

元象XVERSE发布了中国最大的MoE（Mixture of Experts）开源模型XVERSE-MoE-A36B，该模型拥有255B的总参数和36B的激活参数，实现了在不显著增加训练和推理计算成本的情况下，达到100B模型的性能。与同类模型相比，元象MoE在多个权威评测中表现优异，超越了国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B以及3140亿参数的MoE开源模型Grok-1-A86B。

MoE架构通过组合多个细分领域的专家模型，打破了传统扩展定律的局限，能够在扩大模型规模的同时，保持模型性能的最大化。元象的高性能全家桶系列全部开源，无条件免费商用，使得中小企业、研究者和开发者能够根据需求选择使用。

在效率方面，XVERSE-MoE-A36B采用了4D拓扑设计、专家路由与预丢弃策略以及通信与计算重叠机制，优化了计算节点之间的通信路径，减少了不必要的计算和传输，提高了整体计算效率。在效果方面，通过对比实验选择了合适的专家权重设置，并引入了数据动态切换和学习率调度策略，提升了模型的泛化能力和学习速度。

元象的MoE模型已经在多个领域得到应用，例如基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo在港台地区广受欢迎。此外，元象还与腾讯音乐等合作伙伴在文化、娱乐、旅游、金融等领域进行了深度合作，推动了大模型的商用进程。

元象在2023年11月开源了当时中国最大参数的XVERSE-65B模型，并在2024年1月开源了支持输入25万汉字的全球最长上下文窗口大模型，为AI应用的发展提供了强有力的支持。通过这些开源模型，元象为AI生态贡献了低成本的应用工具，推动了AI技术的普及和应用。