LLM长上下文服务突破：SPIN框架统一稀疏注意力与分层内存

大语言模型（LLM）长上下文服务的性能瓶颈日益突出，主要源于不断增长的KV缓存（Key-Value Cache）所带来的注意力机制成本。尽管动态稀疏注意力（dynamic sparse attention）承诺通过在每个解码步骤中只访问KV状态的一个小规模、依赖查询的子集，并将KV存储扩展到CPU内存来缓解这一问题。然而，在实际应用中，这些算法层面的优化很少能转化为端到端的系统级性能提升。这主要是因为稀疏方法通常在不同的粒度上操作，因此需要针对每种算法进行专门的实现。与此同时，引入分层KV存储（hierarchical KV storage）带来了新的系统瓶颈：跨GPU-CPU边界检索细粒度、不规则的KV子集，很容易抵消稀疏性带来的潜在优势。

为了解决这些挑战，研究者提出了SPIN（Sparse-attention-aware Inference framework），一个稀疏注意力感知的推理框架。SPIN通过与分层KV存储协同设计执行流水线，解决了上述痛点。它主要包含三项核心技术：

统一分区抽象（unified partition abstraction）：将不同稀疏性粒度映射到一个共享的、基于页（page-based）的KV存储基础结构上。
局部感知KV缓存管理器（locality-aware KV cache manager）：该管理器能够动态调整每个请求的高带宽内存（HBM）预算，并采用一种对GPU友好的桶式LRU（bucketed LRU）策略，以减少PCIe往返传输的开销。
两级分层元数据布局（two-level hierarchical metadata layout）：其大小根据活跃工作集（active working set）而非最坏情况下的地址空间进行调整。

SPIN框架在vLLM基础上，结合了三种代表性的稀疏注意力算法进行构建和验证。实验结果显示，SPIN相较于vLLM，实现了1.66至5.66倍的端到端吞吐量提升，并将首次生成令牌时间（TTFT, Time To First Token）缩短了7至9倍。此外，与原始的稀疏注意力实现相比，SPIN将每个输出令牌时间（TPOT, Time Per Output Token）降低了高达58%。这些显著的性能提升表明SPIN在实现可扩展长上下文LLM服务方面具有巨大潜力。