Together AI开源OSCAR：突破2位KV量化，攻克长文本痛点

在长文本大语言模型（LLM）的推理服务中，键值缓存（KV Cache）已成为核心的成本瓶颈。随着上下文长度、并发批处理量（Batch Size）以及模型深度的增加，KV缓存的体积在自回归解码阶段呈指数级增长。在数十个并发请求处理10万（100K）Token的极限场景下，KV缓存会蚕食掉GPU的大部分显存。因此，压缩KV缓存是提高推理并发、降低显存带宽消耗最直接的手段。

然而，行业此前尝试将KV缓存压缩至2-bit（INT2）精度的方案在实际应用中几乎不可行。传统的量化方法要么会导致模型精度大幅崩溃，要么需要定制的推理架构，从而无法兼容目前主流的Paged KV-cache（分页KV缓存）系统。Together AI 最新开源的 OSCAR（Offline Spectral Covariance-Aware Rotation） 系统成功解决了这两大难题。

为什么 2-bit KV 缓存量化极其困难？

KV激活值中存在显著的“通道异常值”（Channel-wise Outliers）。在极少数通道中存在极大的数值，而绝大多数通道的数据则相对平缓。当采用只有四个可表示台阶的 INT2 量化时，这些少数的异常值会彻底主导缩放因子（Scale Factor）。量化器不得不将大部分精度范围浪费在这些罕见的峰值上，导致正常数值被压缩至仅剩一到两个有效台阶，严重削弱了注意力机制（Attention）的计算质量。

尽管基于旋转的量化方法（如 Hadamard 变换）通过应用固定的正交变换，将异常值的能量重新均匀分配到所有通道中，这在 4-bit（INT4）量化中表现尚可。但在 2-bit 级别，一个更深层的问题浮出水面：这种旋转是“数据无感”（Data-Oblivious）的。它虽然平滑了激活值的范围，但并不知道注意力机制在实际读取时更关注哪些方向。均匀分散量化误差并不等同于将误差推向低重要性的方向。在仅有4个量化层级的 INT2 阶段，这种精细的区别直接决定了模型是否还能正常工作。

OSCAR 的差异化破局方案

OSCAR 的核心发现在于：在量化前应用的旋转矩阵，应当基于注意力统计数据（Attention Statistics）本身进行推导，而非仅仅依赖 KV 激活值的原始分布。

对于键（Keys），决定下游误差的关键并不是 K 的欧几里得重建误差，而是注意力 Logits 的误差：‖QK⊤ − QK̂⊤‖²F = tr((K − K̂)Q⊤Q(K − K̂)⊤)。在这里，加权矩阵实际上是查询协方差 Q⊤Q，而非 K⊤K。这意味着，Query能量较大的方向会放大 Logits 的量化误差。OSCAR 通过校准集估算出经验查询协方差 CQ = (1/N) Σ qn⊤qn，对其进行特征值分解，并使用其特征向量 UQ 作为 Key 的旋转基底。

对于值（Values），其相关误差存在于注意力输出 SV 中。这取决于注意力分数矩阵 S 如何对 Value 的每一行进行加权。研究团队将分数加权的值协方差定义为 CS = (1/N) V⊤S⊤SV。在通过 S 聚合后依然保持较大能量的方向，正是量化误差容易传播的方向。OSCAR 采用 CS 的特征向量 US 作为 Value 的旋转基底。

最终生成的旋转矩阵完全在离线校准阶段计算完成。这种设计使得在线推理系统（如 vLLM 或其他分页KV缓存管理器）能够以极低的运行时开销应用这些矩阵，从而在保持硬件高效兼容的前提下，实现了近乎无损的 2-bit（INT2）极致压缩。

【AgentUpdate 深度解析】长文本和大上下文（Long-Context）是下一代 AI Agent（如多步骤规划、长周期工作流和多文档检索 Agent）落地的核心基石。然而，传统推理架构中庞大的 KV Cache 极大地限制了多 Agent 系统的并发能力与响应速度。Together AI 开源的 OSCAR 系统，通过数学手段（注意力感知协方差旋转）将 KV 缓存压缩至 2-bit，本质上是在不牺牲推理精度的前提下，为硬件算力与内存带宽解耦。相比于流式修剪（Sparsification）或粗暴的 INT4 量化，OSCAR 深入注意力机制本质，保留了最关键的决策激活通道。这不仅能降低企业级 Agent 平台的运营成本，更为端侧（Edge AI）Agent 顺畅运行数十万字上下文的复杂任务开辟了全新的技术路径，是 Agent 基础设施演进的重要里程碑。

Together AI开源OSCAR：突破2位KV量化，攻克长文本痛点

推荐阅读

使用 NVIDIA FLARE 实现 Non-IID CIFAR-10 的 FedAvg 与 FedProx 联邦学习对比指南

华为公布“韬定律”探索芯片新路径；DeepSeek登顶全球调用榜

华为宣布2031年实现1.4nm级芯片量产：主打高性价比