标签:大模型压缩

内存减6倍、精度0损失,推理提速8倍!谷歌新技术震撼了AI圈

Google Research团队提出的TurboQuant技术实现了大语言模型推理过程中的关键突破:将键值缓存(KV cache)压缩至原始大小的1/6,且无精度损失;在H100 GPU上...