内存减6倍、精度0损失，推理提速8倍！谷歌新技术震撼了AI圈

66 0 0

文章摘要

【关键词】 大模型压缩、内存优化、向量量化、TurboQuant、AI效率

Google Research团队提出的TurboQuant技术实现了大语言模型推理过程中的关键突破：将键值缓存（KV cache）压缩至原始大小的1/6，且无精度损失；在H100 GPU上，4比特压缩版本的推理速度比32比特未量化版本提升高达8倍。该技术通过两个核心步骤解决传统向量量化中“为节省空间反而增加开销”的难题——首先使用PolarQuant方法对数据进行随机旋转并转换为极坐标表示，消除了昂贵的归一化步骤和额外的量化常数存储需求；其次采用QJL（量化约翰逊-林登斯特劳斯）算法，仅用1比特处理残余误差，实现数学上可验证的零偏差修正，保障注意力分数计算的准确性。

PolarQuant的核心创新在于用极坐标替代直角坐标建模向量，将半径与角度分离编码：半径代表强度，角度表征方向；由于角度分布高度集中、边界固定，不再需要动态调整的预处理操作，大幅降低存储与计算负担。QJL则以符号位形式（+1/-1）压缩高维数据间相对距离关系，仅消耗极低内存而维持检索能力，其估计器策略性平衡查询精度与简化数据之间的冲突，使得模型能直接读取经过压缩后的注意力信息而不牺牲语义判断质量。

在多类基准测试中，TurboQuant表现出显著优势：在LongBench等长上下文任务上实现性能接近原始模型；于Needle In A Haystack场景中获得完美下游结果；在GloVe词向量搜索任务中，相比PQ与RabbiQ等主流方法，召回率始终保持领先，尤其突出的是其无需针对特定数据集调优即可达到近乎最优失真率，体现出良好的通用性。该算法支持3比特压缩而无需训练或微调，使部署成本趋近于零，同时兼容开源模型如Gemma与Mistral，在不改变底层架构前提下极大拓展了长文本处理及实时对话的应用边界。

最终效果是构建起一种高效轻量型AI基础设施路径——它不仅缓解当前硬件内存瓶颈，更重新定义了向量搜索与大规模模型落地的技术可行性，为AI产品化带来实质性的工程跃迁可能。随着生成式AI深入日常应用，此类面向基础算力层的底层革新将成为支撑智能规模化扩展的关键支柱。