英伟达发布 Nemotron-Labs 扩散语言模型：突破自回归瓶颈，实现并行生成

目前，大语言模型（LLM）已成为代码生成、数学解题和文档摘要等工作流的核心接口。然而，多数 LLM 仍采用自回归（Autoregressive, AR）模式生成文本：即一次仅生成一个 Token，且每个新 Token 都依赖于之前的输出。这种模式虽然稳定且易于训练，但也存在明显的硬件性能瓶颈。

在自回归模式下，生成每个 Token 都需要完整的模型前向传播，并且在计算开始前必须从内存中加载所有权重。对于延迟敏感的应用，逐个 Token 的生成方式往往导致 GPU 大部分时间消耗在内存操作而非计算上，造成算力浪费。此外，AR 模型一旦生成 Token 便无法更改，错误容易随生成过程传播。

英伟达 Nemotron-Labs 推出的扩散语言模型（DLM）开辟了新路径。它通过并行生成多个 Token 并进行多次迭代优化来实现文本产出。这种“生成并完善”的特性不仅能更好地利用现代 GPU 的计算模型，提供显著的运行性能优势，还使其能够修订已生成的文本，非常适合处理填充（Fill-in-the-middle）任务。同时，该架构允许通过调整迭代步数来控制推理预算，在运行效率与生成质量之间取得平衡。

Nemotron-Labs Diffusion 系列涵盖了 3B、8B 和 14B 规模的文本模型，均采用商业友好的 NVIDIA Nemotron Open Model 授权协议。此外，英伟达还发布了一个 8B 规模的视觉语言模型（VLM）供研究使用。为了支持生态发展，英伟达同步开源了基于 Megatron Bridge 框架的训练代码，并支持通过 SGLang 进行高效部署与推理。

英伟达发布 Nemotron-Labs 扩散语言模型：突破自回归瓶颈，实现并行生成

推荐阅读

专才胜过全才：30亿参数模型如何在特定领域击败顶级大模型

YC总裁Garry Tan推出GBrain：为AI Agent打造的开源自动知识图谱存储层

Linus Torvalds谈AI：它是强大的工具，但无法取代人类判断