SinkRouter：大模型长上下文解码效率突破，2倍提速

在大语言模型（LLMs）和多模态模型（LMMs）的长上下文解码任务中，注意力机制正面临日益严重的内存瓶颈。主要原因在于，每个解码步骤都需要从GPU内存中加载大量的KV缓存数据。

当前为了加速解码，主流策略往往以牺牲精度为代价，依赖启发式剪枝来丢弃信息。更深层次看，这些方法常常不加区分地保留所有高分词元，将早期词元视为不可或缺的锚点，或者依赖启发式的头部路由，这都反映出对“注意力沉降”（attention sink）现象缺乏足够的机制理解。

针对这一痛点，研究人员提出了SinkRouter框架。该研究首先揭示了一个关键洞察：注意力沉降现象实际上对应着一个在训练过程中构建的、稳定、可达且误差可控的定点（fixed point）。

基于这一深度理解，SinkRouter被设计为一个无需训练的选择性路由框架。它能够精确检测到沉降信号，并跳过那些会产生接近零输出的冗余计算，从而有效提升效率。

为了将这一机制转化为实际的硬件加速，SinkRouter还开发了一个硬件感知的Triton内核。该内核具备块级分支（block-level branching）和Split-K并行性，以充分利用GPU资源。

团队在包括LongBench、InfiniteBench、CVBench、MileBench和MMVP在内的多项长上下文基准测试上进行了广泛评估。测试涵盖了文本和多模态骨干模型，如Llama-3.1-8B、Llama-3.1-70B、Yi-9B-200K、LLaVA-1.5-7B和LLaVA-1.5-13B。在这些多样化的设置下，SinkRouter始终能在保持竞争性精度的同时，显著提升解码效率。在512K上下文长度下，它实现了高达2.03倍的加速效果。