标签:组合优化

KV Cache终于不用无脑全留了!百度&复旦用「投资回报率」重新分配缓存|ICML 2026

随着人工智能应用中模型单次处理的上下文长度不断增加,键值缓存的内存占用随序列长度线性增长,成为制约推理效率和吞吐能力的瓶颈。当前主流的缓存压缩方案...