长上下文不再难：KV Cache 全生命周期优化实战

910 0 0

文章摘要

长上下文大语言模型推动下游应用发展的同时，也带来计算和内存效率挑战。为应对这些挑战，围绕 KV 缓存的长上下文推理优化方法应运而生。
1. 长文本大语言模型的应用和推理挑战：支持长上下文的大语言模型已成为主流，能显著提升智能表现，在代码场景、Agent 类应用等方面表现突出。然而，长上下文使用成本高、推理速度慢，面临计算复杂度带来的延迟瓶颈和 KV Cache 带来的存储压力。针对这些挑战，提出了 MInference、RetrievalAttention 等优化方案，并采用以 KV Cache 为中心的设计思路，对推理流程全链路优化。
2. 当前主流推理优化方法与技术：推理优化手段分为算法层和系统层优化。以 KV Cache 为核心的优化技术中，Prefix Caching 应用广泛，还可引入语义级匹配机制提高缓存命中率。
3. 以 KV Cache 为中心的 LLM 推理架构：推理优化方法分为 KV Cache 生成、压缩与存储前处理、语义检索、解码加载优化四个阶段。SCBench 明确建模了多轮对话和企业级内部应用两种共享上下文模式，结合三类能力构成基准测试，包含 12 个子任务，纳入四类 KV Cache 优化策略。还提出 Tri – shape 方法，发现支持多轮解码需 O(n)级内存存储能力，长文本生成存在分布漂移问题。
4. 以 KV 缓存为中心的高效长文本方法
– 观察结果：注意力机制具有动态变化的稀疏性和局部性特征。动态稀疏性普遍存在于 Prefilling 和 Decoding 阶段，局部性表现为多种特殊空间结构。
– MInference 1.0：利用注意力动态稀疏性加速长上下文推理，包含 Offline 和 Online 阶段，最高可实现 10 倍加速，大幅降低算力需求和成本。
– 多模态场景优化：多模态场景中，注意力机制有偏置特征和模态边界问题。提出基于 Permutation 的方法和 MMInference，将多种动态稀疏注意力方法统一到通用框架，最多可实现 8.3 倍端到端加速。
– 社区相关工作：社区的类似工作可归类为使用更细粒度估计策略、在估计阶段引入参数化、将稀疏建模反哺至模型训练阶段三个方向，动态稀疏方法还可用于视频或图像生成、解码阶段。