标签：大模型压缩

内存减6倍、精度0损失，推理提速8倍！谷歌新技术震撼了AI圈

Google Research团队提出的TurboQuant技术实现了大语言模型推理过程中的关键突破：将键值缓存（KV cache）压缩至原始大小的1/6，且无精度损失；在H100 GPU上...

AIGC动态

2天前