标签:KV压缩

上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025

大模型在处理超长上下文方面已取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已能支持百万Token级别的输入。然而,提升上下文长度仍面临巨大挑战,尤其在金...