News

DeepSeek V4技术报告详解:百万上下文与国产芯片适配

DeepSeek V4技术报告详解:百万上下文与国产芯片适配

DeepSeek V4尽管“迟到”半年,但发布后依旧备受关注。其详尽的技术报告全面公开了484天的研发历程,揭示了多项重大突破。

报告的核心亮点主要体现在两方面:

首先,百万Token上下文能力全面开源,并大幅缩减了KV缓存。DeepSeek V4-Pro和V4-Flash模型,参数量分别为1.6万亿和2840亿,均支持1M(百万)Token上下文。在1M上下文场景下,V4-Pro的单Token FLOPs仅为V3.2的27%,KV缓存更是显著减少到10%。这一成就被业内专家认为可能有助于缓解当前HBM(高带宽内存)短缺的硬件瓶颈。

其次,积极适配国产芯片算力。DeepSeek V4已支持华为算力,并预计下半年将有昇腾950超节点批量上市,为国产AI生态提供强大支持。

在V4发布前,DeepSeek曾陆续放出几篇潜在的技术论文,现在技术报告开源,我们可以逐一“对账”:

  • mHC(流形约束超连接 Manifold-Constrained Hyper-Connections):于2025年12月31日上传arXiv,该技术已成功整合进V4。
  • Engram(条件记忆模块 Conditional Memory Module):由DeepSeek联合北大在1月发布,但并未进入V4,报告明确指出其将留给未来的V5版本。
  • DualPipe:作为V3的核心组件,在V4中继续沿用,并针对mHC进行了相应调整。
  • Muon优化器:在V4中取代了AdamW,负责绝大多数模型参数的训练。

综合来看,DeepSeek V4是该系列中架构变动最大的一版。相较于V3,V4在三个核心方面进行了升级:

  1. 引入mHC(Manifold-Constrained Hyper-Connections):用于强化残差连接,提升模型训练的稳定性。
  2. 设计混合注意力架构(hybrid attention):通过CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)交替叠加,高效解决长文本处理效率问题。
  3. 采用Muon作为主优化器

MoE(Mixture of Experts)部分仍然沿用DeepSeekMoE,MTP(Multi-Token Prediction)模块也与V3保持一致。一些细节调整包括:affinity score的激活函数从Sigmoid更换为Sqrt(Softplus(·));去除了routing target nodes的数量约束;前几层的dense FFN被替换为使用Hash routing的MoE层。

接下来深入解析这些关键技术。

mHC:为残差连接加固

残差连接自2016年ResNet提出以来,一直是深度学习模型训练的基石,确保梯度有效回传。然而,随着模型层数和参数规模的不断增加,传统残差连接在信号传递稳定性方面面临挑战,容易导致训练不稳定。

mHC是在Hyper-Connections(HC)基础上发展而来。HC通过将残差流从一维扩展到n_hc条并行通道,并引入矩阵B在层间混合,增加了残差流的缩放维度。但DeepSeek在实践中发现,HC在多层堆叠时存在数值不稳定性问题。

V4的mHC方案,将矩阵B约束到“双随机矩阵”的流形上(数学上称为Birkhoff多胞形),确保矩阵的行和列都归一化为1。这一约束带来了显著优势:

  • 矩阵的谱范数天然不超过1,有效为残差传播设置了硬上限,防止梯度爆炸。
  • 此类矩阵在乘法下保持封闭性,即便堆叠多层也能维持稳定性。

输入映射A和输出映射C通过Sigmoid函数确保非负且有界,避免信号相互抵消。

实现上,mHC采用Sinkhorn-Knopp迭代算法,通过交替进行行归一化和列归一化,迭代约20次达到收敛。整个过程对每一层都独立运行。虽然听起来计算成本较高,但DeepSeek通过fused kernel(融合核)和选择性recomputation(重计算)优化,将mHC带来的额外wall-time开销控制在overlapped pipeline的6.7%以内。

混合注意力机制:百万Token效率的秘密

这是DeepSeek V4实现“百万Token效率”的核心技术。V4的注意力层并非单一结构,而是CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)两种机制交替使用。

CSA(Compressed Sparse Attention) 机制分四步:

  1. KV压缩:每m个Token的KV(Key-Value)条目通过一种带学习权重的Attention-like机制压缩成一个。
  2. Lightning Indexer + Top-k选择:继承自V3.2的DSA。对每个Query Token,使用一个轻量级的索引器计算其与每个压缩KV块的相关性分数,并选择Top-k个块。
  3. 核心注意力计算:在选中的Top-k压缩KV块上进行Multi-Query Attention,生成注意力输出。
  4. 分组输出投影(Grouped Output Projection):鉴于V4的head dimension c 被设为512(远大于V3.2的128),直接将所有head的输出投影回d维成本很高。因此,V4将n_h个head分成g组,每组首先投影到一个中间维度d_g,最后再合并投影回d维。

CSA机制相当于进行了两层压缩:首先是序列长度压缩(n变为n/m),其次是稀疏选择(n/m变为top-k)。对于1M Token的序列,原来需要关注1M个Token,现在只需关注1024个压缩块。

HCA(Heavily Compressed Attention) 则更为直接且压缩力度更大,但它不进行稀疏选择。

其压缩率m’=128,每128个Token压缩成一个块,且压缩过程不带重叠。然后对所有压缩后的KV块进行dense attention(稠密注意力计算)。

CSA和HCA的交替使用,体现了它们不同的分工:CSA以温和压缩和稀疏选择实现Token级别的精细检索;HCA则以激进压缩和保持稠密性实现长距离的全局信号汇总。V4模型(Pro版61层,Flash版43层)将这两种机制层层交替叠加,确保既不遗漏细节,也不因细节处理而降低效率。

此外,Q/KV归一化也是其细节优化之一。

↗ 阅读原文