DeepSeek V4技术报告详解：百万上下文与国产芯片适配

DeepSeek V4尽管“迟到”半年，但发布后依旧备受关注。其详尽的技术报告全面公开了484天的研发历程，揭示了多项重大突破。

报告的核心亮点主要体现在两方面：

首先，百万Token上下文能力全面开源，并大幅缩减了KV缓存。DeepSeek V4-Pro和V4-Flash模型，参数量分别为1.6万亿和2840亿，均支持1M（百万）Token上下文。在1M上下文场景下，V4-Pro的单Token FLOPs仅为V3.2的27%，KV缓存更是显著减少到10%。这一成就被业内专家认为可能有助于缓解当前HBM（高带宽内存）短缺的硬件瓶颈。

其次，积极适配国产芯片算力。DeepSeek V4已支持华为算力，并预计下半年将有昇腾950超节点批量上市，为国产AI生态提供强大支持。

在V4发布前，DeepSeek曾陆续放出几篇潜在的技术论文，现在技术报告开源，我们可以逐一“对账”：

mHC（流形约束超连接 Manifold-Constrained Hyper-Connections）：于2025年12月31日上传arXiv，该技术已成功整合进V4。
Engram（条件记忆模块 Conditional Memory Module）：由DeepSeek联合北大在1月发布，但并未进入V4，报告明确指出其将留给未来的V5版本。
DualPipe：作为V3的核心组件，在V4中继续沿用，并针对mHC进行了相应调整。
Muon优化器：在V4中取代了AdamW，负责绝大多数模型参数的训练。

综合来看，DeepSeek V4是该系列中架构变动最大的一版。相较于V3，V4在三个核心方面进行了升级：

引入mHC（Manifold-Constrained Hyper-Connections）：用于强化残差连接，提升模型训练的稳定性。
设计混合注意力架构（hybrid attention）：通过CSA（Compressed Sparse Attention）和HCA（Heavily Compressed Attention）交替叠加，高效解决长文本处理效率问题。
采用Muon作为主优化器。

MoE（Mixture of Experts）部分仍然沿用DeepSeekMoE，MTP（Multi-Token Prediction）模块也与V3保持一致。一些细节调整包括：affinity score的激活函数从Sigmoid更换为Sqrt(Softplus(·))；去除了routing target nodes的数量约束；前几层的dense FFN被替换为使用Hash routing的MoE层。

接下来深入解析这些关键技术。

mHC：为残差连接加固

残差连接自2016年ResNet提出以来，一直是深度学习模型训练的基石，确保梯度有效回传。然而，随着模型层数和参数规模的不断增加，传统残差连接在信号传递稳定性方面面临挑战，容易导致训练不稳定。

mHC是在Hyper-Connections（HC）基础上发展而来。HC通过将残差流从一维扩展到n_hc条并行通道，并引入矩阵B在层间混合，增加了残差流的缩放维度。但DeepSeek在实践中发现，HC在多层堆叠时存在数值不稳定性问题。

V4的mHC方案，将矩阵B约束到“双随机矩阵”的流形上（数学上称为Birkhoff多胞形），确保矩阵的行和列都归一化为1。这一约束带来了显著优势：

矩阵的谱范数天然不超过1，有效为残差传播设置了硬上限，防止梯度爆炸。
此类矩阵在乘法下保持封闭性，即便堆叠多层也能维持稳定性。

输入映射A和输出映射C通过Sigmoid函数确保非负且有界，避免信号相互抵消。

实现上，mHC采用Sinkhorn-Knopp迭代算法，通过交替进行行归一化和列归一化，迭代约20次达到收敛。整个过程对每一层都独立运行。虽然听起来计算成本较高，但DeepSeek通过fused kernel（融合核）和选择性recomputation（重计算）优化，将mHC带来的额外wall-time开销控制在overlapped pipeline的6.7%以内。

混合注意力机制：百万Token效率的秘密

这是DeepSeek V4实现“百万Token效率”的核心技术。V4的注意力层并非单一结构，而是CSA（Compressed Sparse Attention）和HCA（Heavily Compressed Attention）两种机制交替使用。

CSA（Compressed Sparse Attention） 机制分四步：

KV压缩：每m个Token的KV（Key-Value）条目通过一种带学习权重的Attention-like机制压缩成一个。
Lightning Indexer + Top-k选择：继承自V3.2的DSA。对每个Query Token，使用一个轻量级的索引器计算其与每个压缩KV块的相关性分数，并选择Top-k个块。
核心注意力计算：在选中的Top-k压缩KV块上进行Multi-Query Attention，生成注意力输出。
分组输出投影（Grouped Output Projection）：鉴于V4的head dimension c 被设为512（远大于V3.2的128），直接将所有head的输出投影回d维成本很高。因此，V4将n_h个head分成g组，每组首先投影到一个中间维度d_g，最后再合并投影回d维。

CSA机制相当于进行了两层压缩：首先是序列长度压缩（n变为n/m），其次是稀疏选择（n/m变为top-k）。对于1M Token的序列，原来需要关注1M个Token，现在只需关注1024个压缩块。

HCA（Heavily Compressed Attention） 则更为直接且压缩力度更大，但它不进行稀疏选择。

其压缩率m’=128，每128个Token压缩成一个块，且压缩过程不带重叠。然后对所有压缩后的KV块进行dense attention（稠密注意力计算）。

CSA和HCA的交替使用，体现了它们不同的分工：CSA以温和压缩和稀疏选择实现Token级别的精细检索；HCA则以激进压缩和保持稠密性实现长距离的全局信号汇总。V4模型（Pro版61层，Flash版43层）将这两种机制层层交替叠加，确保既不遗漏细节，也不因细节处理而降低效率。

此外，Q/KV归一化也是其细节优化之一。