标签:缓存量化

超越 TurboQuant! OSCAR:面向真实 Serving 的 2bit KV Cache量化

长上下文模型在在线推理服务中面临KV Cache带来的显存容量和带宽压力。OSCAR方案旨在通过面向长上下文服务的近2-bit KV Cache量化技术,解决低比特压缩后模型...