谷歌迎来“DeepSeek时刻”！TurboQuant引爆AI圈、全球开发者疯狂复现：6倍无损压缩，内存股集体暴跌

55 0 0

文章摘要

谷歌研究院近期发布TurboQuant压缩算法，实现了大语言模型运行中键值缓存（KV cache）的极致无损压缩：可将内存占用降低至少6倍，并在H100显卡上实现最高8倍速度提升。该技术无需微调、无需训练数据，直接接入任意Transformer模型即可生效，其核心突破在于精度零损失——使用3比特量化仍能保证输出结果完全一致。研究团队提出双阶段技术路径：第一阶段由PolarQuant负责极坐标系转换，将高维向量简化为半径与方向两项信息，大幅压缩空间；第二阶段采用QJL误差校正层，在几乎无额外开销的前提下修复压缩残留误差，保障注意力机制计算精度。相关实验显示，在Gemma与Mistral模型上，该算法于长上下文任务中实现性能稳定、压缩比达6:1；在英伟达H100平台采用4比特计算时，注意力分数处理速度相较32比特快8倍。

除LLM推理外，TurboQuant适用于向量检索场景，尤其在RAG与相似度搜索中效果显著：针对1536维向量，其索引构建时间仅需0.0013秒（乘积量化需近4分钟），召回率表现优于现有基准方法。目前虽未正式开源代码，但开发者已在PyTorch/Triton、MLX及llama.cpp等框架中复现成功——有测试显示2比特压缩下模型输出与原始版本逐字符完全一致；另有实测在苹果芯片35B参数模型上获全满分“大海捞针”测试成绩。值得注意的是，QJL模块因依赖精确内积估计，复现难度较高，错误实现可能导致输出乱码，这也是官方尚未发布正式库的主要原因。

市场对这一技术反应强烈：内存类股票短期内出现集体下跌——美光科技跌3%、西部数据跌4.7%、闪迪跌5.7%，A股存储芯片股普遍跌幅超4%。尽管部分分析师认为当前反应过度，认为硬件采购需求仍具韧性，但不可否认，此类效率跃升将在基础设施成本结构中产生关键影响。与此同时，英伟达同步推出KVTC算法，目标20倍压缩比且精度损失小于1%，在8000 token提示词场景下首token延迟降幅可达8倍，其基于PCA与熵编码的设计虽需模型校准，却展现出更强扩展性。两者同场亮相ICLR 2026会议，标志KV缓存优化已从实验室课题加速演进为生产级系统必需能力。

该算法可在不改变模型结构的情况下，将键值缓存内存占用降低至少6倍，同时保持输出一致性。
PolarQuant通过极坐标转换大幅精简向量表达，QJL则以1比特误差修正层实现精准补救，二者结合达成精度零损失的压缩目标。
在英伟达H100上，4比特TurboQuant计算注意力分数的速度较32比特原生方式快8倍。
尽管未公开代码，已有开发者在多种主流框架中成功复现，部分测试表明2比特压缩下仍能实现逐字符无差别的输出结果。
内存股集体下跌反映投资者预期转向——AI基础设施对物理内存的真实需求可能因压缩技术出现显著下调。