英伟达(NVIDIA)研究团队近日发布了全新的语言模型家族——Nemotron-Labs-Diffusion。该模型最大的突破在于,它在单一架构中统一了三种不同的解码模式:自回归(AR)解码、基于扩散(Diffusion)的并行解码,以及自投机(Self-speculation)解码。该模型家族提供 3B、8B 和 14B 三种参数尺寸,并包含基础版(Base)、指令微调版(Instruct)和视觉语言(Vision-Language)等多种变体。
传统的自回归(AR)语言模型采用从左到右逐个生成 Token 的顺序解码方式。由于每个 Token 的生成都极度依赖于之前的所有 Token,这种串行依赖性极大地限制了 GPU 在单次生成步骤中的并行计算能力。在低 Batch Size 场景下(如单用户交互或边缘端部署),这会导致极低的硬件利用率,从而成为提升吞吐量的主要瓶颈。
相比之下,扩散语言模型(Diffusion LMs)提供了一种全新思路。它不再顺序生成 Token,而是在单次前向传播中并行对多个 Token 进行去噪,从而显著提升吞吐量。然而,传统的扩散模型在准确率上一直落后于自回归模型,需要多得多的训练数据才能达到同等性能。这主要是因为传统的扩散训练将所有的 Token 排列组合一视同仁,未能充分利用自然语言中固有的“从左至右”的强先验特征。
为了解决这一痛点,Nemotron-Labs-Diffusion 采用了“自回归-扩散”联合目标函数进行训练。在推理时,它无需对模型架构进行任何修改,仅凭同一套权重,即可根据不同的部署上下文在以下三种模式之间自由切换:
首先是 AR(自回归)模式。这是标准的因果注意力机制,最适合高并发的云端推理服务。其次是 Diffusion(扩散)模式。它在固定长度的块(Block)内并行对多个 Token 进行去噪。序列被划分为连续的块,块内 Token 进行双向注意力交互,块间则保持因果注意力,这使得先前的块可以复用其 KV 缓存。通过引入一个轻量级的受训采样器,模型能够预测当前去噪步骤中 Top-1 预测是否正确,并在每一步中确认并提交多个 Token,从而实现极高的单次前向传播吞吐量。
最后是 Self-speculation(自投机)模式。该模式直接在单个模型内部,利用扩散路径来起草候选 Token,并利用 AR 路径进行验证,完全不需要辅助的草稿模型(Draft Model)或独立的预测头。扩散路径并行生成由 k 个候选 Token 组成的块,AR 路径则使用因果注意力对这些候选 Token 进行第二次前向传播验证,确保最长连续前缀与 AR 预测一致。这种方法与 Eagle3 等多 Token 预测(MTP)方案形成了鲜明对比,后者通常需要在 AR 骨干网络上挂载小型辅助草稿头。
【AgentUpdate 深度解析】 Nemotron-Labs-Diffusion 的推出,彻底打破了传统 LLM 推理架构在“吞吐量”与“准确率”之间的权衡僵局。在 AI Agent 的落地应用中,复杂的规划、反思和多轮对话(如 Tool-use 循环)需要极高的推理速度和极低的延迟,而传统的 AR 串行解码已成为实时 Agent 交互的最大瓶颈。英伟达通过在单一模型权重中融合“扩散并行”与“自投机验证”,不仅将单次前向吞吐提升至 Qwen3-8B 的 6 倍,更免去了维护双模型(主模型+草稿模型)的工程复杂度。这种“单模型多模态解码”的范式,极大地优化了边缘设备和本地 Agent 的端侧部署可行性。未来,随着 Agent 迈向群体协同(Multi-Agent Collective)和自主执行,这种高吞吐、零架构冗余的混合解码技术,将成为下一代 Agent 运行环境(Runtime)的底层标配技术,让更复杂的推理链条能够在极短时间内完成闭环。