Open-TQ-Metal：苹果M芯片Llama 3.1 70B实现128K长上下文推理

近日，一项名为Open-TQ-Metal的创新技术问世，首次在苹果Silicon芯片上实现了融合压缩域注意力（fused compressed-domain attention），为Llama 3.1 70B模型在单台配备64GB内存的消费级Mac上进行128K长上下文推理提供了可能。在此之前，这一配置对于现有所有推理框架而言都是无法实现的。

Open-TQ-Metal的核心在于其独特的KV缓存处理机制。它能够实时地将KV缓存量化为int4格式，并通过定制的Metal计算着色器直接在这些压缩表示上进行注意力计算，从而完全避免了所有中间的反量化矩阵操作。这项技术在对Gemma 4 31B和Llama 3.1 70B两个模型家族进行的330次实验中表现出色。在128K上下文长度下，其融合sdpa_int4核相比于先反量化再计算注意力的基线方法，实现了高达48倍的注意力计算速度提升。

此外，这项技术还将KV缓存的内存占用从40 GB大幅减少至12.5 GB，达到了3.2倍的压缩率，同时在top-1 token预测方面与FP16精度推理保持了完全一致的准确性。研究团队还首次对跨架构的KV缓存量化方法进行了分析，揭示了一个关键发现：决定PolarQuant等角度量化方案成败的并非模型大小，而是注意力尺度因子（attention scale factor）。例如，Gemma 4的attn_scale=1.0相较于Llama标准的1/sqrt(d)缩放，将方向误差放大了25到100倍。