内存通胀“终结者”？谷歌公开最新极限压缩算法

45 0 0

文章摘要

谷歌推出的TurboQuant算法实现了大模型推理阶段的极致内存压缩，核心在于重构键值缓存（KV Cache）的存储方式。

该技术通过两大关键技术路径解决长期存在的内存瓶颈问题：其一为PolarQuant主压缩，利用极坐标系替代传统直角坐标系表达高维向量，结合随机旋转使数据分布高度规律化，进而构建固定码本实现在线实时高效压缩；其二为QJL（量化Johnson-Lindenstrauss变换）残差校正，仅用1比特表征压缩后残留误差，与原始查询向量联合形成无偏内积估计，确保注意力机制计算准确无误。

该技术可将KV Cache内存占用压缩至每通道仅3比特，相较传统16或32比特减少至少6倍，在LongBench等长上下文基准测试中，3.5比特配置下模型性能与全精度版本完全一致，2.5比特则仅有轻微下降。

在H100 GPU上，4比特TurboQuant的注意力核心步骤运算速度比未压缩的32比特版本快8倍。

这一突破性进展不仅显著降低大模型在处理长文档或多轮对话时的运行成本，更推动边缘端设备上的复杂推理成为可能——手机和嵌入式系统得以支持更高吞吐量的长上下文任务；向量数据库亦受益，实现实时索引与亚毫秒级查询。

市场反应已显现，相关硬件厂商股价随预期调整而波动，反映出行业对后续AI服务器对高性能内存需求可能大幅下调的判断转变。

该成果具备可扩展性，适用于多模态向量压缩及现代语义搜索场景。

相关研究论文计划于ICLR 2026与AISTATS 2026发布。