News

Open-TQ-Metal:苹果M芯片Llama 3.1 70B实现128K长上下文推理

Open-TQ-Metal:苹果M芯片Llama 3.1 70B实现128K长上下文推理

近日,一项名为Open-TQ-Metal的创新技术问世,首次在苹果Silicon芯片上实现了融合压缩域注意力(fused compressed-domain attention),为Llama 3.1 70B模型在单台配备64GB内存的消费级Mac上进行128K长上下文推理提供了可能。在此之前,这一配置对于现有所有推理框架而言都是无法实现的。

Open-TQ-Metal的核心在于其独特的KV缓存处理机制。它能够实时地将KV缓存量化为int4格式,并通过定制的Metal计算着色器直接在这些压缩表示上进行注意力计算,从而完全避免了所有中间的反量化矩阵操作。这项技术在对Gemma 4 31B和Llama 3.1 70B两个模型家族进行的330次实验中表现出色。在128K上下文长度下,其融合sdpa_int4核相比于先反量化再计算注意力的基线方法,实现了高达48倍的注意力计算速度提升。

此外,这项技术还将KV缓存的内存占用从40 GB大幅减少至12.5 GB,达到了3.2倍的压缩率,同时在top-1 token预测方面与FP16精度推理保持了完全一致的准确性。研究团队还首次对跨架构的KV缓存量化方法进行了分析,揭示了一个关键发现:决定PolarQuant等角度量化方案成败的并非模型大小,而是注意力尺度因子(attention scale factor)。例如,Gemma 4的attn_scale=1.0相较于Llama标准的1/sqrt(d)缩放,将方向误差放大了25到100倍。

↗ 阅读原文