最新研究深入探讨了Transformer模型前馈网络(FFN)中通道级重要性的组织结构,揭示了其中关键的“超节点”(supernodes)概念及其在模型剪枝中的重要性。
研究人员采用一种基于激活-梯度二阶矩的费雪(Fisher)风格损失代理(Loss Proxy, LP)方法,分析发现LLM(大型语言模型)FFN中,损失敏感性高度集中在一小组通道中。以Llama-3.1-8B为例,每个层中仅占1%的通道却承载了LP质量的平均58.7%(范围在33.0%至86.1%之间)。这些对模型性能至关重要的通道被命名为“超节点”。
值得注意的是,“超节点”与FFN层中常见的激活异常值(activation outliers)仅有微弱的重叠。研究表明,它们的重要性不能简单地通过激活功率或权重范数来解释。在这些核心“超节点”周围,研究还发现了一种虽弱但持续存在的“光环结构”(halo structure):一些非超节点通道与超节点共享写入支持,并表现出更强的冗余性。
为验证这种组织结构,研究团队进行了一次性结构化FFN剪枝诊断测试。结果显示,当剪枝了大量超节点的基线方法在50% FFN稀疏度下性能急剧下降时,显式保护超节点核心的SCAR变体(SCAR-Prot)表现出卓越的鲁棒性。其中,最强的SCAR-Prot变体在困惑度(perplexity)上达到54.8,而Wanda-channel等基线方法的困惑度则高达989.2。
这种LP集中模式在多种主流LLM中普遍存在,包括Mistral-7B、Llama-2-7B和Qwen2-7B,并且在Llama-3.1-70B的针对性实验中依然清晰可见。此外,在OLMo-2-7B的预训练过程中,这种集中度模式还会增强。这些发现共同表明,LLM的FFN会发展出一个由少量关键通道组成的学习核心,而保护这一核心对于实现可靠的结构化剪枝至关重要。