标签：组合优化

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

随着人工智能应用中模型单次处理的上下文长度不断增加，键值缓存的内存占用随序列长度线性增长，成为制约推理效率和吞吐能力的瓶颈。当前主流的缓存压缩方案...

AIGC动态

3小时前