
文章摘要
【关 键 词】 自然语言处理、扩散模型、开源框架、推理效率、并行解码
蚂蚁集团开源了业界首个高性能扩散语言模型推理框架dInfer,旨在解决扩散模型在推理效率上的瓶颈问题。长期以来,自回归模型在自然语言处理领域占据主导地位,但其逐字生成的串行方式限制了计算效率。相比之下,扩散模型通过并行去噪过程生成文本,理论上具有更高的效率和全局视野优势,但实际应用中面临计算成本高、键值缓存难以利用以及并行解码不稳定等挑战。
dInfer框架通过创新的层级解码和信用解码策略,显著提升了并行生成的稳定性。层级解码采用分治思想,递归地在不同区域中心生成词,减少语义冲突;信用解码则为候选词设置信用分,优先选择高信用词,增强长序列生成的稳定性。此外,框架提出邻近KV缓存刷新机制,仅重新计算局部区域的键值状态,大幅降低计算开销。系统层面,dInfer结合张量并行和专家并行技术,优化GPU资源利用率,并通过即时编译和循环展开等技术进一步提升效率。
实验数据显示,dInfer在单批次推理场景下表现卓越。在配备8块H800 GPU的服务器上,其平均吞吐量达到680.71 tokens/秒,是Fast-dLLM的6.5倍。搭载轨迹蒸馏技术训练的LLaDA-MoE-TD模型后,性能进一步提升至847.22 tokens/秒,在代码生成任务HumanEval上更是突破1125.67 tokens/秒。这些结果表明,dInfer成功将扩散模型的理论优势转化为实际应用中的高效表现。
该框架的开源为扩散语言模型的广泛应用扫清了技术障碍。蚂蚁集团已公开dInfer v0.1的全部代码和技术文档,推动该技术路线从实验室走向产业落地。扩散模型固有的并行生成能力和全局视野特性,有望在代码生成、数学推理等复杂任务中展现独特价值,为自然语言处理领域带来新的可能性。
原文和模型
【原文链接】 阅读原文 [ 2486字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆