全球最强开源模型一夜易主,1320亿参数推理飙升2倍!

AIGC动态8个月前发布 AIera
800 0 0
全球最强开源模型一夜易主,1320亿参数推理飙升2倍!

 

文章摘要


【关 键 词】 DBRX开源模型MoE架构Databricks模型训练

Databricks公司发布了全球最强开源模型DBRX,超越了Llama 2MixtralGrok-1。DBRX采用了细粒度MoE架构,每次输入仅使用360亿参数,实现了更快的每秒token吞吐量,推理速度比LLaMA 2-70B快了2倍。训练成本直接砍半,只用了1000万美元3100块H100,Databricks就在2个月内完成了DBRX的开发。DBRX在语言理解、编程、数学和逻辑方面轻松击败了开源模型LLaMA2-70BMixtral,以及Grok-1,甚至在整体性能上超越了GPT-3.5

DBRX是一种基于Transformer纯解码器的大模型,采用下一token预测进行训练。它采用的是细粒度专家混合(MoE)架构,也就是具有更多的专家模型。DBRX大约有1320亿个参数,但处理一个典型查询,平均只需激活约360亿个参数,这就提高了底层硬件的利用率,将训练效率提高了30%到50%。DBRX还使用了旋转位置编码(RoPE)门控线性单元(GLU)分组查询注意力(GQA),并使用tiktoken存储库中提供的GPT-4分词器

DBRX模型在12万亿Token的文本和代码进行预训练,支持的最大上下文长度为32k。研究人员估计,这些数据比用来预训练MPT系列模型的数据至少好2倍。这个新的数据集,使用全套数据库工具开发,包括用于数据处理的ApacheSpark™Databricks笔记本,用于数据管理和治理的Unity Catalog,以及用于实验追踪的MLFlow。团队使用了「课程学习」(curriculum learning)进行预训练,并在训练过程中改变数据组合,大大提高了模型质量。

DBRX在综合基准、编程和数学基准以及MMLU上,刷新了开源AI的SOTA。与闭源模型GPT-3.5相比,DBRX Instruct的性能全面超越了它,还可与Gemini 1.0 ProMistral Medium相较量。DBRX Instruct采用高达32K token上下文进行了训练。总体而言,MoE模型的推理速度,它们的总参数所显示的要快。这是因为它们对每个输入使用的参数相对较少。DBRX推理吞吐量是132B非MoE模型的2-3倍

企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。而开源社区可以通过GitHub存储库Hugging Face访问DBRX。

原文和模型


【原文链接】 阅读原文 [ 4239字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...