文章摘要
【关 键 词】 扩散模型、文本生成、推理加速、双向注意、开源模型
谷歌近期发布了DiffusionGemma文本生成模型,该模型摒弃了传统的自回归逐Token生成方式,转而采用扩散模型架构。通过在包含256个Token的画布上从随机噪声出发进行多轮去噪,模型能够实现整段文字的同时生成。这种类似印刷机的工作模式使得模型在生成速度上实现显著提升,比同规格的自回归模型快了约4倍。在H100显卡上,其生成速度可超过每秒1000个Token,在RTX 5090上也能达到每秒700个以上。此外,作为260亿参数的混合专家模型,其推理时仅激活38亿参数,量化后仅需18GB显存即可运行,意味着单张4090显卡便能支持本地部署。
除了速度优势,DiffusionGemma引入了双向注意力机制。与只能依赖前文生成的传统自回归模型不同,双向注意力允许模型在生成过程中同时获取前后文信息,从而具备实时自我纠错的能力。这一特性在处理需要前后文高度协调的任务时展现出结构性优势,例如在数独求解任务中,经过微调后的模型成功率从零提升至80%。然而,扩散模型在生成质量与速度之间仍面临权衡,去噪步数的减少虽能提升速度,但会影响输出质量。目前该模型在多项基准测试中的质量表现与同参数量的标准模型相比仍存在差距,官方建议将其主要应用于对速度敏感的本地交互场景。
尽管处于实验阶段,DiffusionGemma已获得全面的生态与硬件支持,涵盖从消费级显卡到企业级计算集群的多种设备,并兼容主流推理框架。该模型采用允许商用的Apache 2.0协议进行开源,此举不仅验证了利用现代GPU并行算力突破大模型速度上限的可行性,也为下一代模型形态的探索提供了重要的开源基础。
原文和模型
【原文链接】 阅读原文 [ 1580字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3.7-max
【摘要评分】 ★★☆☆☆



