标签:TurboQuant

内存减6倍、精度0损失,推理提速8倍!谷歌新技术震撼了AI圈

Google Research团队提出的TurboQuant技术实现了大语言模型推理过程中的关键突破:将键值缓存(KV cache)压缩至原始大小的1/6,且无精度损失;在H100 GPU上...

内存股集体大跌,原因竟是谷歌这篇一年前的论文

谷歌近日发布的一项名为TurboQuant的新型压缩技术,引发全球内存芯片股集体重挫。该技术首次公开于2025年4月的arXiv论文《TurboQuant: Online Vector Quantiz...