
文章摘要
谷歌正式发布了Gemma 3n完整版,这是一款面向开发者的开源大模型,具备输入图像、音频和视频的能力,并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和端侧优化,能够在最低2GB内存的设备上运行,并在编程与推理等任务上表现优异。该模型提供了两种基于“有效参数”的尺寸:E2B和E4B,通过架构创新,其运行时的内存占用量显著降低。
在基准测试中,Gemma 3n的E4B模型在参数规模低于10B的前提下,LMArena测评得分突破1300,表现优于其他知名模型。开发者Simon Willison在Mac笔记本电脑上运行了两个版本,发现7.5GB和15GB模型量化之间存在显著的视觉差异。尽管Ollama版本尚不支持图像或音频输入,但mlx-vlm版本可以。此外,Gemma 3n完全兼容此前基于Gemma3的所有操作,开发者可以轻松接入视觉语言模型微调脚本。
Gemma 3n的核心技术能力在于其MatFormer架构,这是一种为弹性推理而设计的嵌套式Transformer。该架构允许一个模型在不同任务中以不同“尺寸”运行,实现性能与资源使用的动态平衡。开发者可以根据应用场景自由选择完整的E4B主模型或预提取好的E2B子模型,后者在保证准确率的前提下实现了高达2倍的推理速度。
为了进一步提升内存效率,Gemma 3n引入了Per-Layer Embeddings(PLE)机制,该机制允许很大一部分参数在CPU上高效加载和计算,从而减少加速器内存的占用。此外,KV Cache Sharing机制加快了长文本推理中“首个Token”的生成速度,尤其适用于流式响应场景。
在多模态任务表现方面,Gemma 3n推出了全新高效的视觉编码器MobileNet-V5-300M,该编码器支持多种分辨率,并在Google Pixel设备上实现了每秒最高60帧的实时处理速度。音频处理方面,Gemma 3n搭载了基于Universal Speech Model(USM)的先进音频编码器,解锁了语音识别和语音翻译功能,尤其在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换效果尤为出色。
总体而言,Gemma 3n通过多项创新技术,在性能、内存效率和多模态任务表现上取得了显著提升,为开发者提供了更灵活、高效的模型选择。
原文和模型
【原文链接】 阅读原文 [ 2319字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★