标签:预算分配
KV Cache终于不用无脑全留了!百度&复旦用「投资回报率」重新分配缓存|ICML 2026
随着人工智能应用中模型单次处理的上下文长度不断增加,键值缓存的内存占用随序列长度线性增长,成为制约推理效率和吞吐能力的瓶颈。当前主流的缓存压缩方案...
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
键值缓存(KV cache)是大模型快速运行的核心技术,但存在输入文本越长、所需存储空间越大且处理长文本变慢的问题。现有 KV cache 压缩方法主要依赖基于规则...




