⚡ Labs

英伟达发布 Nemotron-Labs-Diffusion:首创三模态架构,推理效率提升 6 倍

英伟达发布 Nemotron-Labs-Diffusion:首创三模态架构,推理效率提升 6 倍

NVIDIA 研究团队近日发布了 Nemotron-Labs-Diffusion 语言模型系列,该系列在单一架构中统一了三种不同的解码模式。该模型支持自回归(AR)解码、基于扩散(Diffusion)的并行解码以及自投机(Self-speculation)解码。该系列提供 3B、8B 和 14B 三种参数规模,并涵盖了基础(Base)、指令(Instruct)和视觉语言(Vision-Language)等多种变体。

传统自回归(AR)语言模型采用从左到右、逐个生成 token 的方式。这种顺序依赖性限制了每个生成步骤的 GPU 并行化能力,导致在小批量(low batch sizes)场景(如单用户或边缘端部署)下硬件利用率极低。虽然扩散语言模型(Diffusion LMs)通过并行去噪多个 token 来提升吞吐量,但此前其准确率一直落后于 AR 模型。NVIDIA 的这项研究通过联合 AR-扩散目标进行训练,在不改变模型架构的前提下,用同一套权重实现了三种模式的无缝切换。

在推理阶段,该模型可根据部署环境选择模式:AR 模式采用标准因果注意力机制,最适合高并发云端推理。扩散模式则在固定长度的块(Block)内并行去噪,块内采用双向注意力,块间保持因果关系以复用 KV 缓存。通过轻量级采样器预测生成的正确性,该模式允许在单次前向传播中提交多个 token。最引人注目的是自投机模式,它在同一个模型内利用扩散路径生成候选 token,再由 AR 路径进行验证。这种方法无需像 Eagle3 等 MTP(多 token 预测)方案那样依赖辅助草案模型或预测头,显著提升了单次前向传播的 token 产出效率,其性能较 Qwen3-8B 提升了 6 倍。

↗ 阅读原文