首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀

首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀

 

文章摘要


【关 键 词】 AI硬件协同设计成本推理

DeepSeek团队最新发布的论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》探讨了如何通过软硬件协同设计实现经济高效的大规模训练和推理。随着OpenAI、Claude等先进模型的涌现,计算资源需求不断扩大,DeepSeek-V3通过创新的架构设计,仅需2,048个NVIDIA H800 GPU便实现了最先进的性能,为AI和HPC社区提供了宝贵的经验教训。

DeepSeek-V3采用DeepSeek-MoE和多头潜在注意力(MLA)架构,通过压缩键值(KV)缓存显著减少了内存消耗,并采用FP8混合精度训练,降低了计算成本这些创新解决了LLM规模中的三大核心挑战:内存效率、成本效益和推理速度。MLA通过投影矩阵将注意力头的KV表示压缩为更小的潜在向量,进一步减少了内存需求。此外,DeepSeek还提出了共享KV、窗口KV和量化压缩等方法,进一步优化了内存使用。

DeepSeek-MoE架构通过选择性激活专家参数的子集,显著降低了训练成本。与密集模型相比,MoE模型在保持性能的同时,计算资源消耗减少了一个数量级。此外,MoE模型在个人使用和本地部署中也表现出色,内存和计算需求大幅减少,使得配备AI SoC芯片的PC能够实现每秒近20个令牌(TPS)的推理速度。

DeepSeek-V3还引入了多标记预测(MTP)框架,显著提高了推理速度。MTP允许模型以较低的成本生成额外的候选标记并并行验证,缓解了解码步骤中的瓶颈,生成TPS提高了1.8倍。此外,MTP增加了推理批量大小,提高了硬件利用率。

在低精度驱动设计方面,DeepSeek-V3首次在训练阶段使用FP8精度,显著加速了训练过程。然而,FP8在硬件上存在累积精度和细粒度量化等挑战,DeepSeek建议未来硬件应提高累积精度并支持原生细粒度量化,以进一步提升训练效率。

以互联为驱动的设计方面,DeepSeek-V3通过优化并行策略,充分利用了H800 GPU的硬件资源。研究团队采用了增强的流水线并行(PP)和加速的专家并行(EP),并通过节点受限的专家路由策略(Node-Limited Routing)优化了通信带宽的使用效率。此外,团队还提出了未来硬件设计的建议,包括统一网络适配器、专用通信协处理器和灵活的转发、广播和规约机制,以提升大规模分布式AI系统的效率。

在大规模网络驱动设计方面,DeepSeek-V3部署了多平面胖树(MPFT)网络,显著降低了网络成本并提高了通信效率。MPFT网络通过流量隔离和低延迟设计,特别适合延迟敏感型任务,如基于MoE架构的大模型训练与推理。实验表明,MPFT网络在全互联通信任务中的性能与单平面多轨网络持平,且在训练场景下表现出色。

面向未来的硬件架构设计,研究团队提出了应对互联故障和单点硬件故障的建议。他们认为,未来硬件应具备更高的鲁棒性和容错能力,以应对大规模分布式AI系统中的挑战。通过实现这些建议,未来的硬件设计将能够显著提升大规模AI系统的效率,同时简化软件开发的复杂度。

总体而言,DeepSeek-V3通过软硬件协同设计和创新架构,实现了经济高效的大规模训练和推理,为AI和HPC社区提供了宝贵的经验教训,并为未来硬件设计指明了方向。

原文和模型


【原文链接】 阅读原文 [ 8319字 | 34分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...