上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025

AIGC动态2小时前发布 leifengwang
53 0 0
上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025

 

文章摘要


【关 键 词】 大模型推理效率有损计算KV压缩长上下文

大模型在处理超长上下文方面已取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已能支持百万Token级别的输入。然而,提升上下文长度仍面临巨大挑战,尤其在金融、法律等长语境任务中表现更优的模型将创造更大商业价值。胡侠团队提出”有损计算“方案,通过可控的信息损失提升推理效率,核心思路是利用大模型对低精度计算噪声的鲁棒性,以精度换取效率。

该方案包含两项关键技术突破:算法层面粗化远距离标记位置信息,将语境长度扩展至原有8倍;系统层面将KV Cache量化为2比特,实现8倍内存效率提升和3.5倍时钟时间加速。KV Cache作为大模型训练中占用90%GPU内存的中间状态,其压缩能显著提升硬件利用率,相当于将2万美元GPU增值至20万美元。团队创新性地对Key Cache和Value Cache采用不同压缩方法,在Llama模型实验中实现几乎不掉点的效果。

有损计算对不同任务影响存在差异:在对话任务中2比特压缩仍保持准确率,但对程序生成等高精度需求任务可能影响性能。医疗领域应用表明,罕见病诊断等任务对绝对精度要求低于预期,基于统计信息的判断仍可保持可靠性。该方法目前已集成至Hugging Face Transformers等主流框架,具备即插即用特性。

技术挑战主要在于平衡压缩率与准确率,团队通过大量实验验证2比特压缩的可行性,发现Key与Value Cache需差异化处理是保持性能的关键。相比混合专家模型通过稀疏性提升效率的路径,有损计算保留全部信息但降低处理精度。未来研究方向包括2比特压缩的实际应用边界探索,以及预训练阶段直接融入稀疏性设计的架构创新。该成果为端侧部署提供了潜在可能,但当前仍需优先解决服务器端推理延迟问题。

原文和模型


【原文链接】 阅读原文 [ 4698字 | 19分钟 ]
【原文作者】 雷峰网
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...