开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

AIGC动态1年前 (2024)发布 almosthuman2014

1,602 0 0

文章摘要

【关键词】 DBRX开源、混合专家模型、人工智能、大数据、Databricks

Databricks，一家大数据人工智能公司，开源了一款名为DBRX的通用大模型。

这款模型拥有1320亿参数，是一种混合专家模型（MoE）。

DBRX的基础和微调版本已经在GitHub和Hugging Face上发布，可用于研究和商业用途。

DBRX在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型，如LLaMA2-70B、Mixtral和Grok-1。

同时，DBRX也在大多数基准测试上超过了GPT-3.5，并在质量上可与Gemini 1.0 Pro和Mistral Medium竞争，同时速度大大加快。

DBRX的效率很高，它是基于斯坦福MegaBlocks开源项目构建的混合专家模型，平均只用激活360亿参数来处理token，可以实现极高的每秒处理速度。

它的推理速度几乎比LLaMA2-70B快两倍，总参数和活动参数数量比Grok小约40%。

DBRX是一种基于Transformer的仅解码器大语言模型（LLM），使用细粒度的专家混合（MoE）架构，共有1320亿参数，其中36B个参数在任何输入上都处于激活状态。

该模型是在12T文本和代码数据token上预训练而成，最大上下文长度高达32k。

DBRX在综合基准、编程和数学基准以及MMLU方面表现优越。

在多个基准测试中，DBRX Instruct超过了GPT-3.5，或者在某些基准上与GPT-3.5相当。

DBRX Instruct在与Gemini 1.0 Pro和Mistral Medium比较后，取得了具有竞争力的结果。

DBRX Instruct训练上下文窗口大小为32K token。

在一系列长上下文基准测试上，DBRX Instruct表现比GPT-3.5 Turbo好；DBRX Instruct和Mixtral Instruct的整体性能相似。

DBRX是通过3.2Tbps的Infiniband连接3072块NVIDIA H100进行训练的，训练时间花费超过3个月，费用约1000万美元。

构建DBRX的主要过程包括预训练、训练后调整、评估、red team和精炼等过程。

Databricks副总裁Naveen Rao表示，随着DBRX的研发团队Mosaic Labs不断推动生成式AI研究，Databricks将持续完善DBRX并发布新版本。

原文和模型

【原文链接】 阅读原文 [ 2779字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # Azure # Databricks # DBRX开源 # gpt-4-32k # 人工智能 # 大数据 # 机器之心 # 混合专家模型

文章版权归作者所有，未经允许请勿转载。

亚马逊祭出地表最强全家桶，多模态Nova却败给Claude 3.5！

新智元

1,468

从Sora谈起：OpenAI的AGI路线是什么

admin

2,167

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

机器之心

2,104

首批类Sora模型出现，色拉布上线Snap Video，效果优于Pika、不输Gen-2

机器之心

1,744

李沐老师回归B站！带着大模型创业成果填坑来了

量子位

2,188

o3来了！编程跻身人类全球前200，破解陶哲轩说难的数学测试，北大校友任泓宇现身直播间

量子位

1,424

暂无评论

暂无评论...

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

文章摘要

原文和模型

从健身到泛运动，Keep 还有哪些野心？

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

相关文章

暂无评论

热门网址

热门文章

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

文章摘要

原文和模型

从健身到泛运动，Keep 还有哪些野心？

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章