3个月砸1000万美元肝出“最强”大模型？黑马Databricks：我们完虐Grok、Llama，还更开放

AIGC动态1年前 (2024)发布 ai-front

2,129 0 0

3个月砸1000万美元肝出“最强”大模型？黑马Databricks：我们完虐Grok、Llama，还更开放

文章摘要

美国AI初创公司Databricks近日宣布，其Mosaic Research团队开发的通用大模型DBRX将开源。DBRX的设计灵感来源于OpenAI的ChatGPT，Databricks表示，它花费了大约1000万美元和三个月的时间来训练DBRX，并声称其“在标准基准上优于所有现有的开源模型”。

DBRX是一套基于Transformer的纯解码器大语言模型（LLM），使用下一token预测方式进行训练。它使用细粒度的混合专家（MoE）架构，共有132B参数，其中36B参数在任何输入上均处于活动状态。DBRX的预训练使用到12T大小的文本与代码数据tokens。

DBRX在语言理解（MMLU）、编程（HumanEval）和数学（GSM8K）方面优于原有开源模型。在最终模型质量相同的情况下，训练混合专家的FLOP效率约为训练密集模型的2倍。从端到端角度出发，DBRX整体配方（包括预训练数据、模型架构和优化策略）完全能够与上一代MPT模型提供同等输出质量，但计算量却减少至约四分之一。

DBRX的训练过程包括预训练、后训练、评估、红队测试和精炼，全程历时三个月。为了构建DBRX，Databricks打造出一款未来客户也能用到的工具，使用Unity Catalog对训练数据进行管理与治理，同时采取收购而来的Lilac AI资产探索这些数据，并使用Apache Spark和Databricks notebooks清洗并处理这些数据。

目前，DBRX已经被整合至Databricks的生成式AI支持产品当中，包括SQL等应用，且早期表现已经超过了GPT-3.5 Turbo，足以向GPT-4 Trubo发起冲击。DBRX在RAG任务上同样力压GPT-3.5 Turbo以及其他各种开放模型。

据报道，OpenAI公司已经开始训练GPT-5，积极为今年年中的AI模型发布进行准备。据《商业内幕》报道，一旦训练完成，该系统还须经历多个阶段的安全测试。作为过程中的一部分，该机器人还须经历“红队测试”，即同时由内部和外部人员通过测试就其优点和短板给出反馈。同时，有关GPT-6的消息也在近日被广为报道。