内存股集体大跌，原因竟是谷歌这篇一年前的论文

AIGC动态2小时前发布 almosthuman2014

43 0 0

文章摘要

【关键词】 内存暴跌、算法突破、TurboQuant、量化压缩、成本下降

谷歌近日发布的一项名为TurboQuant的新型压缩技术，引发全球内存芯片股集体重挫。该技术首次公开于2025年4月的arXiv论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》，其核心价值在于对大语言模型（LLM）KV缓存的极限压缩——在保持原精度零损失的前提下，可将内存占用降低至少6倍、推理速度提升高达8倍。

KV缓存是LLM生成过程中用于记录历史上下文的关键组件，随着模型规模扩大和输入长度增长，其内存开销呈线性激增。此前，业界依赖昂贵高带宽内存（HBM）应对这一瓶颈，推动市场对内存芯片需求预期持续走高。而TurboQuant则通过“两阶段压缩架构”实现了范式突破：第一阶段采用随机旋转与极坐标映射机制（PolarQuant），将笛卡尔坐标转化为紧凑的半径-角度表示，在数学层面使各维度几乎完全独立，并大幅削减归一化算力；第二阶段引入Quantized Johnson-Lindenstrauss变换（QJL），仅用1 bit空间处理残差，构建出无偏内积量化器，确保注意力计算精准可靠。

实际测试数据印证其卓越性能：在Llama-3.1-8B-Instruct模型上，使用3.5 bit即可实现质量无损；在H100 GPU上，4 bit版本比原始32 bit方案快8倍；长上下文任务中压缩超5倍仍维持完美召回率；向量数据库搜索中，在GloVe数据集上达到最优1@k召回率，并将索引构建时间近乎压至零。

目前已有vLLM与MLX等框架成功集成该技术，实测验证表明，小型服务器设备已具备支持数十万级token KV缓存的能力。这种纯算法驱动的性能提升，被业界视为继GPU、存储涨价之后又一关键拐点——若推广成熟，或将显著缓解AI公司对高性能硬件的刚性需求，重新校准硬件市场增长预期。

值得注意的是，尽管算法层面实现突破，但当前硬件价格并未同步回落，部分领域仍处高位。这一现象揭示出：软件优化虽能释放现有算力潜力，却无法根除底层硬件供需失衡问题。未来能否真正降本增效，还需看产业端部署进度与厂商规模化应用能力协同推进程度。