DeepSeek V4尽管“迟到”半年,但发布后依旧备受关注。其详尽的技术报告全面公开了484天的研发历程,揭示了多项重大突破。
报告的核心亮点主要体现在两方面:
首先,百万Token上下文能力全面开源,并大幅缩减了KV缓存。DeepSeek V4-Pro和V4-Flash模型,参数量分别为1.6万亿和2840亿,均支持1M(百万)Token上下文。在1M上下文场景下,V4-Pro的单Token FLOPs仅为V3.2的27%,KV缓存更是显著减少到10%。这一成就被业内专家认为可能有助于缓解当前HBM(高带宽内存)短缺的硬件瓶颈。
其次,积极适配国产芯片算力。DeepSeek V4已支持华为算力,并预计下半年将有昇腾950超节点批量上市,为国产AI生态提供强大支持。
在V4发布前,DeepSeek曾陆续放出几篇潜在的技术论文,现在技术报告开源,我们可以逐一“对账”:
- mHC(流形约束超连接 Manifold-Constrained Hyper-Connections):于2025年12月31日上传arXiv,该技术已成功整合进V4。
- Engram(条件记忆模块 Conditional Memory Module):由DeepSeek联合北大在1月发布,但并未进入V4,报告明确指出其将留给未来的V5版本。
- DualPipe:作为V3的核心组件,在V4中继续沿用,并针对mHC进行了相应调整。
- Muon优化器:在V4中取代了AdamW,负责绝大多数模型参数的训练。
综合来看,DeepSeek V4是该系列中架构变动最大的一版。相较于V3,V4在三个核心方面进行了升级:
- 引入mHC(Manifold-Constrained Hyper-Connections):用于强化残差连接,提升模型训练的稳定性。
- 设计混合注意力架构(hybrid attention):通过CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)交替叠加,高效解决长文本处理效率问题。
- 采用Muon作为主优化器。
MoE(Mixture of Experts)部分仍然沿用DeepSeekMoE,MTP(Multi-Token Prediction)模块也与V3保持一致。一些细节调整包括:affinity score的激活函数从Sigmoid更换为Sqrt(Softplus(·));去除了routing target nodes的数量约束;前几层的dense FFN被替换为使用Hash routing的MoE层。
接下来深入解析这些关键技术。
mHC:为残差连接加固
残差连接自2016年ResNet提出以来,一直是深度学习模型训练的基石,确保梯度有效回传。然而,随着模型层数和参数规模的不断增加,传统残差连接在信号传递稳定性方面面临挑战,容易导致训练不稳定。
mHC是在Hyper-Connections(HC)基础上发展而来。HC通过将残差流从一维扩展到n_hc条并行通道,并引入矩阵B在层间混合,增加了残差流的缩放维度。但DeepSeek在实践中发现,HC在多层堆叠时存在数值不稳定性问题。
V4的mHC方案,将矩阵B约束到“双随机矩阵”的流形上(数学上称为Birkhoff多胞形),确保矩阵的行和列都归一化为1。这一约束带来了显著优势:
- 矩阵的谱范数天然不超过1,有效为残差传播设置了硬上限,防止梯度爆炸。
- 此类矩阵在乘法下保持封闭性,即便堆叠多层也能维持稳定性。
输入映射A和输出映射C通过Sigmoid函数确保非负且有界,避免信号相互抵消。
实现上,mHC采用Sinkhorn-Knopp迭代算法,通过交替进行行归一化和列归一化,迭代约20次达到收敛。整个过程对每一层都独立运行。虽然听起来计算成本较高,但DeepSeek通过fused kernel(融合核)和选择性recomputation(重计算)优化,将mHC带来的额外wall-time开销控制在overlapped pipeline的6.7%以内。
混合注意力机制:百万Token效率的秘密
这是DeepSeek V4实现“百万Token效率”的核心技术。V4的注意力层并非单一结构,而是CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)两种机制交替使用。
CSA(Compressed Sparse Attention) 机制分四步:
- KV压缩:每m个Token的KV(Key-Value)条目通过一种带学习权重的Attention-like机制压缩成一个。
- Lightning Indexer + Top-k选择:继承自V3.2的DSA。对每个Query Token,使用一个轻量级的索引器计算其与每个压缩KV块的相关性分数,并选择Top-k个块。
- 核心注意力计算:在选中的Top-k压缩KV块上进行Multi-Query Attention,生成注意力输出。
- 分组输出投影(Grouped Output Projection):鉴于V4的head dimension
c被设为512(远大于V3.2的128),直接将所有head的输出投影回d维成本很高。因此,V4将n_h个head分成g组,每组首先投影到一个中间维度d_g,最后再合并投影回d维。
CSA机制相当于进行了两层压缩:首先是序列长度压缩(n变为n/m),其次是稀疏选择(n/m变为top-k)。对于1M Token的序列,原来需要关注1M个Token,现在只需关注1024个压缩块。
HCA(Heavily Compressed Attention) 则更为直接且压缩力度更大,但它不进行稀疏选择。
其压缩率m’=128,每128个Token压缩成一个块,且压缩过程不带重叠。然后对所有压缩后的KV块进行dense attention(稠密注意力计算)。
CSA和HCA的交替使用,体现了它们不同的分工:CSA以温和压缩和稀疏选择实现Token级别的精细检索;HCA则以激进压缩和保持稠密性实现长距离的全局信号汇总。V4模型(Pro版61层,Flash版43层)将这两种机制层层交替叠加,确保既不遗漏细节,也不因细节处理而降低效率。
此外,Q/KV归一化也是其细节优化之一。