1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

AIGC动态1年前 (2024)发布 AIGCOPEN

2,209 0 0

文章摘要

【关键词】 Databricks、DBRX、大模型、MoE模型、MPT-7B

Databricks，一家著名的数据和AI平台，于3月28日正式开源了其大模型 DBRX。

DBRX是一个专家混合模型（MoE），拥有1320亿参数，能生成文本/代码、数学推理等，有基础和微调两种模型。

根据公布的测试数据，DBRX的性能超过了LLaMA2-70B和马斯克最近开源的Grok-1，推理效率比LLaMA2-70B快2倍，总参数却只有Grok-1的三分之一，是一款功能强算力消耗低的大模型。

Databricks在2023年6月26日以13亿美元收购了大模型开源平台MosaicML，以抓住生成式AI的风口。

MosaicML在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B，该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。

MPT-7B只进行了大约10天的训练，零人工干预，训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。

目前，MPT-7B的下载量已超过300万次，而Databricks此次发布的DBRX在MPT-7B基础之上进行了大幅度优化并且将算力需求降低了4倍。

DBRX是一款基于Transformer的MoE架构大模型，1320亿参数中的360亿参数处于长期激活状态。

这与其它开源的MoE类型模型如Mixtral、Grok-1相比，DBRX使用了数量更多的小专家模型。

DBRX有16个专家并选择4个，而Mixtral和Grok-1有8个专家并选择了2个。

DBRX使用了12T的文本和代码数据（支持中文），支持 32k上下文窗口，并在3072 个英伟达的 H100 上进行了3个月的预训练。

MoE模型全称为Mixture of Experts，其核心原理是将一个庞大的神经网络分解为多个相对独立的小型子网络(即专家),每个专家负责处理输入数据的某些方面。

这种架构设计使得MoE模型能够高效利用计算资源,避免对所有参数进行无谓的计算。主要包括门控制机制、专家网络和聚合器三大模块。

Databricks创立于2013年，总部位于美国旧金山，在全球多个国家、地区设有办事处。

其企业客户超过10000家，包括众多财富500强企业。

Databricks主要提数据智能分析服务，帮助企业、个人用户快速挖掘数据的商业价值。

原文和模型

【原文链接】 阅读原文 [ 1096字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # AIGC开放社区 # Azure # Databricks # DBRX # gpt-4-32k # MoE模型 # MPT-7B # 大模型

文章版权归作者所有，未经允许请勿转载。

一群顶尖搜索人才如何2个月出货，还把GPU利用率干到60%！揭秘百川智能研发大模型这一年

AI前线

1,902

蚂蚁华为阿里云罕见联手：AI医疗如何跨过落地鸿沟？

量子位

979

苹果奔向AI原生应用元年

admin

1,915

千元级AI 模盒，云天励飞率先打响大模型「平民化」之战

机器之心

2,328

字节跳动又卷出一款AI机器人“即创”！抖音创作者的福音！

admin

2,230

英伟达，不伟大

admin

2,392

暂无评论

暂无评论...

1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

文章摘要

原文和模型

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

钉钉AI：好险，差点就被长文本卷到

相关文章

暂无评论

热门网址

热门文章

1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

文章摘要

原文和模型

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

钉钉AI：好险，差点就被长文本卷到

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章