内存股集体大跌,原因竟是谷歌这篇一年前的论文
文章摘要
【关 键 词】 内存暴跌、算法突破、TurboQuant、量化压缩、成本下降
谷歌近日发布的一项名为TurboQuant的新型压缩技术,引发全球内存芯片股集体重挫。该技术首次公开于2025年4月的arXiv论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》,其核心价值在于对大语言模型(LLM)KV缓存的极限压缩——在保持原精度零损失的前提下,可将内存占用降低至少6倍、推理速度提升高达8倍。
KV缓存是LLM生成过程中用于记录历史上下文的关键组件,随着模型规模扩大和输入长度增长,其内存开销呈线性激增。此前,业界依赖昂贵高带宽内存(HBM)应对这一瓶颈,推动市场对内存芯片需求预期持续走高。而TurboQuant则通过“两阶段压缩架构”实现了范式突破:第一阶段采用随机旋转与极坐标映射机制(PolarQuant),将笛卡尔坐标转化为紧凑的半径-角度表示,在数学层面使各维度几乎完全独立,并大幅削减归一化算力;第二阶段引入Quantized Johnson-Lindenstrauss变换(QJL),仅用1 bit空间处理残差,构建出无偏内积量化器,确保注意力计算精准可靠。
实际测试数据印证其卓越性能:在Llama-3.1-8B-Instruct模型上,使用3.5 bit即可实现质量无损;在H100 GPU上,4 bit版本比原始32 bit方案快8倍;长上下文任务中压缩超5倍仍维持完美召回率;向量数据库搜索中,在GloVe数据集上达到最优1@k召回率,并将索引构建时间近乎压至零。
目前已有vLLM与MLX等框架成功集成该技术,实测验证表明,小型服务器设备已具备支持数十万级token KV缓存的能力。这种纯算法驱动的性能提升,被业界视为继GPU、存储涨价之后又一关键拐点——若推广成熟,或将显著缓解AI公司对高性能硬件的刚性需求,重新校准硬件市场增长预期。
值得注意的是,尽管算法层面实现突破,但当前硬件价格并未同步回落,部分领域仍处高位。这一现象揭示出:软件优化虽能释放现有算力潜力,却无法根除底层硬件供需失衡问题。 未来能否真正降本增效,还需看产业端部署进度与厂商规模化应用能力协同推进程度。
原文和模型
【原文链接】 阅读原文 [ 2098字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★★



