谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快
文章摘要
【关 键 词】 扩散模型、文本生成、开源模型、本地推理、混合专家
谷歌近日推出了Gemma家族的新成员DiffusionGemma,这是一个探索文本扩散的实验性开源模型。该模型采用Apache 2.0许可证发布,是一个总规模为26B的混合专家模型,推理时仅激活3.8B参数,经量化后可在18GB显存内的高端消费级显卡上运行。DiffusionGemma打破了传统自回归大语言模型逐词生成的限制,采用全新的扩散式输出头,能够同时生成整块文本,在GPU上的文本生成速度最高可提升至4倍。
在技术原理方面,传统语言模型在本地单用户请求时往往导致硬件利用率低下,而DiffusionGemma通过一次性起草整个256个token的文本块,将解码瓶颈从内存带宽转向计算本身,大幅提高了处理器的硬件利用率。此外,该模型支持双向注意力机制,使得每个token能够感知其他token,在行内编辑、代码补全等非线性场景中具备显著优势,并通过多轮迭代实现实时发现与自我修正。
在应用定位上,DiffusionGemma主要为实时交互式应用开发者解决本地推理的延迟痛点。其速度优势主要集中在本地推理和低到中等并发的推理场景,而在高并发云端服务中,传统自回归模型通过批处理仍能保持成本与效率优势。由于该模型更侧重于生成速度和并行布局,其整体输出质量低于标准版Gemma 4,因此官方建议对质量要求极高的生产级应用仍使用标准版。DiffusionGemma更适合研究人员和开发者探索对速度要求极高的工作流,并且通过微调,该模型还能在解数独等特定非线性任务上展现出卓越表现。
原文和模型
【原文链接】 阅读原文 [ 1316字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



