英伟达Nemotron扩散模型：打破自回归，实现并行文本生成

大语言模型（LLM）已经成为代码生成、数学解题、文本摘要及文档理解等开发者工作流的默认接口。然而，在底层，绝大多数大模型仍然采用传统的“自回归”（Autoregressive, AR）方式生成文本：即每次仅生成一个 Token，且每个新生成的 Token 都严格依赖于之前已生成的 Token。

尽管自回归方法在训练稳定性、部署简易度上表现卓越，并推动了现代语言模型的巨大进步，但也带来了一个物理极限：生成每个新 Token 都需要进行一次完整的模型前向传播，并且在计算开始前必须从内存中加载所有权重。对于延迟敏感型应用、运行较小 Batch Size 或试图最大化利用现代 GPU 的开发者而言，这种逐字生成的模式会导致大量 GPU 时间被浪费在内存读写操作（Memory Operations）而非实际计算上，从而牺牲了性能。

此外，自回归模型一旦生成某个 Token，其结果便是最终确定的，模型本身缺乏修改前序 Token 的能力。这就导致生成过程中的微小错误极易在后续文本中不断累积和放大。

为此，英伟达 Nemotron-Labs 推出了全新的解决方案：扩散语言模型（Diffusion Language Models, DLM）。该模型通过并行生成多个 Token，并在多个步骤中迭代优化这些生成的 Token。这种“生成并改进”（Generate-and-Refine）的特性不仅能够更好地契合现代 GPU 的计算架构，提供显著的运行期性能优势，还具备修改已生成 Token 的能力，使其非常适合文本修改和“填空”（Fill-in-the-Middle）任务。此外，这一特性还提供了一种内置的推理预算控制手段——通过减少微调和优化步骤，开发者可以在运行时直接降低模型的计算资源需求。

Nemotron-Labs Diffusion 家族涵盖了 3B、8B 和 14B 等不同参数规模的文本模型（均采用商用友好的 NVIDIA Nemotron Open Model License 开源协议），以及一个 8B 规模的视觉语言模型（VLM）。英伟达同时释放了模型权重、通过 NVIDIA Megatron Bridge 框架进行训练的代码和配方，以及支持通过 SGLang 进行高效部署与推理的集成方案。

【AgentUpdate 深度解析】Nemotron-Labs Diffusion 的推出代表着生成式 AI 范式正在向“多维迭代修正”演进。对 AI Agent 生态而言，这解决了两大痛点：首先，传统 Agent 链式推理一旦中间出错就会产生幻觉累积，而扩散模型的“可回溯与修正”特性为 Agent 提供了天然的自我纠错能力；其次，多 Agent 协同伴随高频的上下文交换，并行 Token 生成将极大压缩延迟瓶颈。未来，这种可根据算力预算动态调整“思考深度”的 DLM 架构，将成为低延迟、自主规划型 Agent 的底层关键基石。

英伟达Nemotron扩散模型：打破自回归，实现并行文本生成

推荐阅读

专有化击败规模化：为什么企业AI选型不该只看参数量？

Garry Tan开源GBrain：为AI Agent打造的自组网记忆层

Linus Torvalds谈AI：内核Commit暴增20%，但AI绝不能取代程序员