谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快

AIGC动态1小时前发布 almosthuman2014

45 0 0

文章摘要

谷歌近日推出了Gemma家族的新成员DiffusionGemma，这是一个探索文本扩散的实验性开源模型。该模型采用Apache 2.0许可证发布，是一个总规模为26B的混合专家模型，推理时仅激活3.8B参数，经量化后可在18GB显存内的高端消费级显卡上运行。DiffusionGemma打破了传统自回归大语言模型逐词生成的限制，采用全新的扩散式输出头，能够同时生成整块文本，在GPU上的文本生成速度最高可提升至4倍。

在技术原理方面，传统语言模型在本地单用户请求时往往导致硬件利用率低下，而DiffusionGemma通过一次性起草整个256个token的文本块，将解码瓶颈从内存带宽转向计算本身，大幅提高了处理器的硬件利用率。此外，该模型支持双向注意力机制，使得每个token能够感知其他token，在行内编辑、代码补全等非线性场景中具备显著优势，并通过多轮迭代实现实时发现与自我修正。

在应用定位上，DiffusionGemma主要为实时交互式应用开发者解决本地推理的延迟痛点。其速度优势主要集中在本地推理和低到中等并发的推理场景，而在高并发云端服务中，传统自回归模型通过批处理仍能保持成本与效率优势。由于该模型更侧重于生成速度和并行布局，其整体输出质量低于标准版Gemma 4，因此官方建议对质量要求极高的生产级应用仍使用标准版。DiffusionGemma更适合研究人员和开发者探索对速度要求极高的工作流，并且通过微调，该模型还能在解数独等特定非线性任务上展现出卓越表现。