LLM前馈网络"超节点"揭秘：剪枝关键核心

最新研究深入探讨了Transformer模型前馈网络（FFN）中通道级重要性的组织结构，揭示了其中关键的“超节点”（supernodes）概念及其在模型剪枝中的重要性。

研究人员采用一种基于激活-梯度二阶矩的费雪（Fisher）风格损失代理（Loss Proxy, LP）方法，分析发现LLM（大型语言模型）FFN中，损失敏感性高度集中在一小组通道中。以Llama-3.1-8B为例，每个层中仅占1%的通道却承载了LP质量的平均58.7%（范围在33.0%至86.1%之间）。这些对模型性能至关重要的通道被命名为“超节点”。

值得注意的是，“超节点”与FFN层中常见的激活异常值（activation outliers）仅有微弱的重叠。研究表明，它们的重要性不能简单地通过激活功率或权重范数来解释。在这些核心“超节点”周围，研究还发现了一种虽弱但持续存在的“光环结构”（halo structure）：一些非超节点通道与超节点共享写入支持，并表现出更强的冗余性。

为验证这种组织结构，研究团队进行了一次性结构化FFN剪枝诊断测试。结果显示，当剪枝了大量超节点的基线方法在50% FFN稀疏度下性能急剧下降时，显式保护超节点核心的SCAR变体（SCAR-Prot）表现出卓越的鲁棒性。其中，最强的SCAR-Prot变体在困惑度（perplexity）上达到54.8，而Wanda-channel等基线方法的困惑度则高达989.2。

这种LP集中模式在多种主流LLM中普遍存在，包括Mistral-7B、Llama-2-7B和Qwen2-7B，并且在Llama-3.1-70B的针对性实验中依然清晰可见。此外，在OLMo-2-7B的预训练过程中，这种集中度模式还会增强。这些发现共同表明，LLM的FFN会发展出一个由少量关键通道组成的学习核心，而保护这一核心对于实现可靠的结构化剪枝至关重要。

LLM前馈网络"超节点"揭秘：剪枝关键核心

推荐阅读

中间表示法成AI生成图像检测新利器，性能显著超越现有方案

深度伪造检测新突破：哈密顿动力学揭示AI生成图像的“不稳定性”

XAI评估卡：标准化可解释AI指标评估，提升透明度

相关工具与资源推荐

关联产品

openai-agents-python

AI-Search-Hub

caveman