在长文本大语言模型(LLM)的推理服务中,键值缓存(KV Cache)已成为核心的成本瓶颈。随着上下文长度、并发批处理量(Batch Size)以及模型深度的增加,KV缓存的体积在自回归解码阶段呈指数级增长。在数十个并发请求处理10万(100K)Token的极限场景下,KV缓存会蚕食掉GPU的大部分显存。因此,压缩KV缓存是提高推理并发、降低显存带宽消耗最直接的手段。
然而,行业此前尝试将KV缓存压缩至2-bit(INT2)精度的方案在实际应用中几乎不可行。传统的量化方法要么会导致模型精度大幅崩溃,要么需要定制的推理架构,从而无法兼容目前主流的Paged KV-cache(分页KV缓存)系统。Together AI 最新开源的 OSCAR(Offline Spectral Covariance-Aware Rotation) 系统成功解决了这两大难题。
为什么 2-bit KV 缓存量化极其困难?
KV激活值中存在显著的“通道异常值”(Channel-wise Outliers)。在极少数通道中存在极大的数值,而绝大多数通道的数据则相对平缓。当采用只有四个可表示台阶的 INT2 量化时,这些少数的异常值会彻底主导缩放因子(Scale Factor)。量化器不得不将大部分精度范围浪费在这些罕见的峰值上,导致正常数值被压缩至仅剩一到两个有效台阶,严重削弱了注意力机制(Attention)的计算质量。
尽管基于旋转的量化方法(如 Hadamard 变换)通过应用固定的正交变换,将异常值的能量重新均匀分配到所有通道中,这在 4-bit(INT4)量化中表现尚可。但在 2-bit 级别,一个更深层的问题浮出水面:这种旋转是“数据无感”(Data-Oblivious)的。它虽然平滑了激活值的范围,但并不知道注意力机制在实际读取时更关注哪些方向。均匀分散量化误差并不等同于将误差推向低重要性的方向。在仅有4个量化层级的 INT2 阶段,这种精细的区别直接决定了模型是否还能正常工作。
OSCAR 的差异化破局方案
OSCAR 的核心发现在于:在量化前应用的旋转矩阵,应当基于注意力统计数据(Attention Statistics)本身进行推导,而非仅仅依赖 KV 激活值的原始分布。
对于键(Keys),决定下游误差的关键并不是 K 的欧几里得重建误差,而是注意力 Logits 的误差:‖QK⊤ − QK̂⊤‖²F = tr((K − K̂)Q⊤Q(K − K̂)⊤)。在这里,加权矩阵实际上是查询协方差 Q⊤Q,而非 K⊤K。这意味着,Query能量较大的方向会放大 Logits 的量化误差。OSCAR 通过校准集估算出经验查询协方差 CQ = (1/N) Σ qn⊤qn,对其进行特征值分解,并使用其特征向量 UQ 作为 Key 的旋转基底。
对于值(Values),其相关误差存在于注意力输出 SV 中。这取决于注意力分数矩阵 S 如何对 Value 的每一行进行加权。研究团队将分数加权的值协方差定义为 CS = (1/N) V⊤S⊤SV。在通过 S 聚合后依然保持较大能量的方向,正是量化误差容易传播的方向。OSCAR 采用 CS 的特征向量 US 作为 Value 的旋转基底。
最终生成的旋转矩阵完全在离线校准阶段计算完成。这种设计使得在线推理系统(如 vLLM 或其他分页KV缓存管理器)能够以极低的运行时开销应用这些矩阵,从而在保持硬件高效兼容的前提下,实现了近乎无损的 2-bit(INT2)极致压缩。
【AgentUpdate 深度解析】长文本和大上下文(Long-Context)是下一代 AI Agent(如多步骤规划、长周期工作流和多文档检索 Agent)落地的核心基石。然而,传统推理架构中庞大的 KV Cache 极大地限制了多 Agent 系统的并发能力与响应速度。Together AI 开源的 OSCAR 系统,通过数学手段(注意力感知协方差旋转)将 KV 缓存压缩至 2-bit,本质上是在不牺牲推理精度的前提下,为硬件算力与内存带宽解耦。相比于流式修剪(Sparsification)或粗暴的 INT4 量化,OSCAR 深入注意力机制本质,保留了最关键的决策激活通道。这不仅能降低企业级 Agent 平台的运营成本,更为端侧(Edge AI)Agent 顺畅运行数十万字上下文的复杂任务开辟了全新的技术路径,是 Agent 基础设施演进的重要里程碑。