Labs

SinkRouter:大模型长上下文解码效率突破,2倍提速

SinkRouter:大模型长上下文解码效率突破,2倍提速

在大语言模型(LLMs)和多模态模型(LMMs)的长上下文解码任务中,注意力机制正面临日益严重的内存瓶颈。主要原因在于,每个解码步骤都需要从GPU内存中加载大量的KV缓存数据。

当前为了加速解码,主流策略往往以牺牲精度为代价,依赖启发式剪枝来丢弃信息。更深层次看,这些方法常常不加区分地保留所有高分词元,将早期词元视为不可或缺的锚点,或者依赖启发式的头部路由,这都反映出对“注意力沉降”(attention sink)现象缺乏足够的机制理解。

针对这一痛点,研究人员提出了SinkRouter框架。该研究首先揭示了一个关键洞察:注意力沉降现象实际上对应着一个在训练过程中构建的、稳定、可达且误差可控的定点(fixed point)。

基于这一深度理解,SinkRouter被设计为一个无需训练的选择性路由框架。它能够精确检测到沉降信号,并跳过那些会产生接近零输出的冗余计算,从而有效提升效率。

为了将这一机制转化为实际的硬件加速,SinkRouter还开发了一个硬件感知的Triton内核。该内核具备块级分支(block-level branching)和Split-K并行性,以充分利用GPU资源。

团队在包括LongBench、InfiniteBench、CVBench、MileBench和MMVP在内的多项长上下文基准测试上进行了广泛评估。测试涵盖了文本和多模态骨干模型,如Llama-3.1-8B、Llama-3.1-70B、Yi-9B-200K、LLaVA-1.5-7B和LLaVA-1.5-13B。在这些多样化的设置下,SinkRouter始终能在保持竞争性精度的同时,显著提升解码效率。在512K上下文长度下,它实现了高达2.03倍的加速效果。

↗ 阅读原文