英伟达发布 Nemotron-Labs-Diffusion：首创三模态架构，推理效率提升 6 倍

NVIDIA 研究团队近日发布了 Nemotron-Labs-Diffusion 语言模型系列，该系列在单一架构中统一了三种不同的解码模式。该模型支持自回归（AR）解码、基于扩散（Diffusion）的并行解码以及自投机（Self-speculation）解码。该系列提供 3B、8B 和 14B 三种参数规模，并涵盖了基础（Base）、指令（Instruct）和视觉语言（Vision-Language）等多种变体。

传统自回归（AR）语言模型采用从左到右、逐个生成 token 的方式。这种顺序依赖性限制了每个生成步骤的 GPU 并行化能力，导致在小批量（low batch sizes）场景（如单用户或边缘端部署）下硬件利用率极低。虽然扩散语言模型（Diffusion LMs）通过并行去噪多个 token 来提升吞吐量，但此前其准确率一直落后于 AR 模型。NVIDIA 的这项研究通过联合 AR-扩散目标进行训练，在不改变模型架构的前提下，用同一套权重实现了三种模式的无缝切换。

在推理阶段，该模型可根据部署环境选择模式：AR 模式采用标准因果注意力机制，最适合高并发云端推理。扩散模式则在固定长度的块（Block）内并行去噪，块内采用双向注意力，块间保持因果关系以复用 KV 缓存。通过轻量级采样器预测生成的正确性，该模式允许在单次前向传播中提交多个 token。最引人注目的是自投机模式，它在同一个模型内利用扩散路径生成候选 token，再由 AR 路径进行验证。这种方法无需像 Eagle3 等 MTP（多 token 预测）方案那样依赖辅助草案模型或预测头，显著提升了单次前向传播的 token 产出效率，其性能较 Qwen3-8B 提升了 6 倍。

英伟达发布 Nemotron-Labs-Diffusion：首创三模态架构，推理效率提升 6 倍

推荐阅读

Google Beam 迎重大更新：真人等比例显示与空间音频提升会议临场感

内存立省85%！Rust高性能向量索引库Turbovec发布，基于谷歌TurboQuant算法

Anthropic 预计第二季度营收突破 100 亿美元，将首次实现盈利