OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mistral 7B全开源

2,294 0 0

文章摘要

近期，人工智能领域出现了小模型的热潮。OpenAI推出了GPT-4o mini，Mistral AI与英伟达合作发布了Mistral NeMo，而苹果公司也加入了这一竞争，发布了包含70亿和14亿参数的DCLM小模型，并立即开源。这些小模型的发布，不仅在性能上有所突破，更在开源方面树立了新的标杆。

苹果的DCLM小模型在性能上接近Llama 3和Gemma，且在HuggingFace上已经发布了全部模型权重。DCLM-7B模型采用了decoder-only架构，使用PyTorch和OpenLM框架进行预训练。在上下文长度为2048的情况下，DCLM在53个基准任务上的评估表现优异，尤其在核心准确率和扩展准确率上均达到了最佳。此外，DCLM-7B在5-shot的MMLU任务准确率上比之前的SOTA MAP-Neo模型提升了6.6个百分点，同时训练所需的计算量减少了40%。

值得注意的是，DCLM-1B模型在性能上也表现突出，尤其在5-shot MMLU分数上比SmolLM提升了11.9%。DCLM-1B的训练数据量比7B版本多0.1T，且在Apache 2.0下发布，允许商业使用、分发和修改。

DCLM系列模型的成功，离不开其重要基础——DataComp基准。DataComp论文详细阐述了数据集的构建过程，并提到了DCLM模型的部分内容。Vaishaal Shankar表示，将很快发布论文的更新版，提供更多有关模型预训练的技术细节。

在AI科技巨头中，小模型的优势在于成本低、速度快、更专业。它们通常只使用少量数据训练，为特定任务而设计。当前的LLM之所以逐渐变成“巨兽”，是因为训练过程仍然非常浪费。但对于小模型来说，训练目标已经改变，关键问题是AI系统如何从更少的数据中学到更多。这需要模型先变得更大，再变得更小，因为我们需要“巨兽”将数据重构、塑造为理想的合成形式，逐渐得到“完美的训练集”，再喂给小模型。

尽管小模型在某些任务上表现出色，但科技巨头们并没有放弃大模型。苹果在今年WWDC大会上，曾宣布了在Siri助手中植入ChatGPT，以执行撰写电子邮件等复杂任务。毕竟，通往终极AGI/ASI，参数规模的扩大和智能的增长成正比。