标签:向量量化

向量量化如何影响存储?与RaBitQ两位作者,从与谷歌TurboQuant学术争议聊起

近期技术风波引发学术争议,凸显了向量压缩领域对研究透明度与伦理审查的严格诉求。在此背景下,学术团队开发的RaBitQ向量压缩算法依托严密的数学推导与可验...

内存减6倍、精度0损失,推理提速8倍!谷歌新技术震撼了AI圈

Google Research团队提出的TurboQuant技术实现了大语言模型推理过程中的关键突破:将键值缓存(KV cache)压缩至原始大小的1/6,且无精度损失;在H100 GPU上...

上交大冷静文:模型发展需要和芯片、系统厂商协同

上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infer...