中国最大开源MoE模型,255B参数无条件免费商用,元象发布

AIGC动态3周前发布 QbitAI
170 0 0
中国最大开源MoE模型,255B参数无条件免费商用,元象发布

 

文章摘要


【关 键 词】 MoE模型开源AI应用性能优化技术普及

元象XVERSE发布了中国最大的MoE(Mixture of Experts)开源模型XVERSE-MoE-A36B,该模型拥有255B的总参数和36B的激活参数,实现了在不显著增加训练和推理计算成本的情况下,达到100B模型的性能。与同类模型相比,元象MoE在多个权威评测中表现优异,超越了国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B以及3140亿参数的MoE开源模型Grok-1-A86B。

MoE架构通过组合多个细分领域的专家模型,打破了传统扩展定律的局限,能够在扩大模型规模的同时,保持模型性能的最大化。元象的高性能全家桶系列全部开源,无条件免费商用,使得中小企业、研究者和开发者能够根据需求选择使用。

在效率方面,XVERSE-MoE-A36B采用了4D拓扑设计、专家路由与预丢弃策略以及通信与计算重叠机制,优化了计算节点之间的通信路径,减少了不必要的计算和传输,提高了整体计算效率。在效果方面,通过对比实验选择了合适的专家权重设置,并引入了数据动态切换和学习率调度策略,提升了模型的泛化能力和学习速度。

元象的MoE模型已经在多个领域得到应用,例如基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo在港台地区广受欢迎。此外,元象还与腾讯音乐等合作伙伴在文化、娱乐、旅游、金融等领域进行了深度合作,推动了大模型的商用进程。

元象在2023年11月开源了当时中国最大参数的XVERSE-65B模型,并在2024年1月开源了支持输入25万汉字的全球最长上下文窗口大模型,为AI应用的发展提供了强有力的支持。通过这些开源模型,元象为AI生态贡献了低成本的应用工具,推动了AI技术的普及和应用。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2009字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...