谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快

谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快

 

文章摘要


【关 键 词】 扩散模型文本生成开源模型本地推理混合专家

谷歌近日推出了Gemma家族的新成员DiffusionGemma,这是一个探索文本扩散的实验性开源模型。该模型采用Apache 2.0许可证发布,是一个总规模为26B的混合专家模型,推理时仅激活3.8B参数,经量化后可在18GB显存内的高端消费级显卡上运行。DiffusionGemma打破了传统自回归大语言模型逐词生成的限制,采用全新的扩散式输出头,能够同时生成整块文本,在GPU上的文本生成速度最高可提升至4倍。

在技术原理方面,传统语言模型在本地单用户请求时往往导致硬件利用率低下,而DiffusionGemma通过一次性起草整个256个token的文本块,将解码瓶颈从内存带宽转向计算本身,大幅提高了处理器的硬件利用率。此外,该模型支持双向注意力机制,使得每个token能够感知其他token,在行内编辑、代码补全等非线性场景中具备显著优势,并通过多轮迭代实现实时发现与自我修正。

在应用定位上,DiffusionGemma主要为实时交互式应用开发者解决本地推理的延迟痛点。其速度优势主要集中在本地推理和低到中等并发的推理场景,而在高并发云端服务中,传统自回归模型通过批处理仍能保持成本与效率优势。由于该模型更侧重于生成速度和并行布局,其整体输出质量低于标准版Gemma 4,因此官方建议对质量要求极高的生产级应用仍使用标准版。DiffusionGemma更适合研究人员和开发者探索对速度要求极高的工作流,并且通过微调,该模型还能在解数独等特定非线性任务上展现出卓越表现。

原文和模型


【原文链接】 阅读原文 [ 1316字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★☆☆☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...