标签：预算分配

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

随着人工智能应用中模型单次处理的上下文长度不断增加，键值缓存的内存占用随序列长度线性增长，成为制约推理效率和吞吐能力的瓶颈。当前主流的缓存压缩方案...

AIGC动态

3小时前

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

键值缓存（KV cache）是大模型快速运行的核心技术，但存在输入文本越长、所需存储空间越大且处理长文本变慢的问题。现有 KV cache 压缩方法主要依赖基于规则...

AIGC动态

9个月前