News

LLM长上下文服务突破:SPIN框架统一稀疏注意力与分层内存

LLM长上下文服务突破:SPIN框架统一稀疏注意力与分层内存

大语言模型(LLM)长上下文服务的性能瓶颈日益突出,主要源于不断增长的KV缓存(Key-Value Cache)所带来的注意力机制成本。尽管动态稀疏注意力(dynamic sparse attention)承诺通过在每个解码步骤中只访问KV状态的一个小规模、依赖查询的子集,并将KV存储扩展到CPU内存来缓解这一问题。然而,在实际应用中,这些算法层面的优化很少能转化为端到端的系统级性能提升。这主要是因为稀疏方法通常在不同的粒度上操作,因此需要针对每种算法进行专门的实现。与此同时,引入分层KV存储(hierarchical KV storage)带来了新的系统瓶颈:跨GPU-CPU边界检索细粒度、不规则的KV子集,很容易抵消稀疏性带来的潜在优势。

为了解决这些挑战,研究者提出了SPIN(Sparse-attention-aware Inference framework),一个稀疏注意力感知的推理框架。SPIN通过与分层KV存储协同设计执行流水线,解决了上述痛点。它主要包含三项核心技术:

  1. 统一分区抽象(unified partition abstraction):将不同稀疏性粒度映射到一个共享的、基于页(page-based)的KV存储基础结构上。
  2. 局部感知KV缓存管理器(locality-aware KV cache manager):该管理器能够动态调整每个请求的高带宽内存(HBM)预算,并采用一种对GPU友好的桶式LRU(bucketed LRU)策略,以减少PCIe往返传输的开销。
  3. 两级分层元数据布局(two-level hierarchical metadata layout):其大小根据活跃工作集(active working set)而非最坏情况下的地址空间进行调整。

SPIN框架在vLLM基础上,结合了三种代表性的稀疏注意力算法进行构建和验证。实验结果显示,SPIN相较于vLLM,实现了1.66至5.66倍的端到端吞吐量提升,并将首次生成令牌时间(TTFT, Time To First Token)缩短了7至9倍。此外,与原始的稀疏注意力实现相比,SPIN将每个输出令牌时间(TPOT, Time Per Output Token)降低了高达58%。这些显著的性能提升表明SPIN在实现可扩展长上下文LLM服务方面具有巨大潜力。

↗ 阅读原文