英伟达发布Nemotron-Labs-Diffusion：三模态架构带来6倍Token生成效率

英伟达（NVIDIA）研究团队近日发布了全新的语言模型家族——Nemotron-Labs-Diffusion。该模型最大的突破在于，它在单一架构中统一了三种不同的解码模式：自回归（AR）解码、基于扩散（Diffusion）的并行解码，以及自投机（Self-speculation）解码。该模型家族提供 3B、8B 和 14B 三种参数尺寸，并包含基础版（Base）、指令微调版（Instruct）和视觉语言（Vision-Language）等多种变体。

传统的自回归（AR）语言模型采用从左到右逐个生成 Token 的顺序解码方式。由于每个 Token 的生成都极度依赖于之前的所有 Token，这种串行依赖性极大地限制了 GPU 在单次生成步骤中的并行计算能力。在低 Batch Size 场景下（如单用户交互或边缘端部署），这会导致极低的硬件利用率，从而成为提升吞吐量的主要瓶颈。

相比之下，扩散语言模型（Diffusion LMs）提供了一种全新思路。它不再顺序生成 Token，而是在单次前向传播中并行对多个 Token 进行去噪，从而显著提升吞吐量。然而，传统的扩散模型在准确率上一直落后于自回归模型，需要多得多的训练数据才能达到同等性能。这主要是因为传统的扩散训练将所有的 Token 排列组合一视同仁，未能充分利用自然语言中固有的“从左至右”的强先验特征。

为了解决这一痛点，Nemotron-Labs-Diffusion 采用了“自回归-扩散”联合目标函数进行训练。在推理时，它无需对模型架构进行任何修改，仅凭同一套权重，即可根据不同的部署上下文在以下三种模式之间自由切换：

首先是 AR（自回归）模式。这是标准的因果注意力机制，最适合高并发的云端推理服务。其次是 Diffusion（扩散）模式。它在固定长度的块（Block）内并行对多个 Token 进行去噪。序列被划分为连续的块，块内 Token 进行双向注意力交互，块间则保持因果注意力，这使得先前的块可以复用其 KV 缓存。通过引入一个轻量级的受训采样器，模型能够预测当前去噪步骤中 Top-1 预测是否正确，并在每一步中确认并提交多个 Token，从而实现极高的单次前向传播吞吐量。

最后是 Self-speculation（自投机）模式。该模式直接在单个模型内部，利用扩散路径来起草候选 Token，并利用 AR 路径进行验证，完全不需要辅助的草稿模型（Draft Model）或独立的预测头。扩散路径并行生成由 k 个候选 Token 组成的块，AR 路径则使用因果注意力对这些候选 Token 进行第二次前向传播验证，确保最长连续前缀与 AR 预测一致。这种方法与 Eagle3 等多 Token 预测（MTP）方案形成了鲜明对比，后者通常需要在 AR 骨干网络上挂载小型辅助草稿头。

【AgentUpdate 深度解析】 Nemotron-Labs-Diffusion 的推出，彻底打破了传统 LLM 推理架构在“吞吐量”与“准确率”之间的权衡僵局。在 AI Agent 的落地应用中，复杂的规划、反思和多轮对话（如 Tool-use 循环）需要极高的推理速度和极低的延迟，而传统的 AR 串行解码已成为实时 Agent 交互的最大瓶颈。英伟达通过在单一模型权重中融合“扩散并行”与“自投机验证”，不仅将单次前向吞吐提升至 Qwen3-8B 的 6 倍，更免去了维护双模型（主模型+草稿模型）的工程复杂度。这种“单模型多模态解码”的范式，极大地优化了边缘设备和本地 Agent 的端侧部署可行性。未来，随着 Agent 迈向群体协同（Multi-Agent Collective）和自主执行，这种高吞吐、零架构冗余的混合解码技术，将成为下一代 Agent 运行环境（Runtime）的底层标配技术，让更复杂的推理链条能够在极短时间内完成闭环。

英伟达发布Nemotron-Labs-Diffusion：三模态架构带来6倍Token生成效率

推荐阅读

Google Beam 迎来升级：让远程混合会议拥有“面对面”真实体验

Rust向量索引库Turbovec发布：免训练压缩16倍，内存省87%

Anthropic迎来首个盈利季度：Q2营收翻倍至109亿美元