目前,大语言模型(LLM)已成为代码生成、数学解题和文档摘要等工作流的核心接口。然而,多数 LLM 仍采用自回归(Autoregressive, AR)模式生成文本:即一次仅生成一个 Token,且每个新 Token 都依赖于之前的输出。这种模式虽然稳定且易于训练,但也存在明显的硬件性能瓶颈。
在自回归模式下,生成每个 Token 都需要完整的模型前向传播,并且在计算开始前必须从内存中加载所有权重。对于延迟敏感的应用,逐个 Token 的生成方式往往导致 GPU 大部分时间消耗在内存操作而非计算上,造成算力浪费。此外,AR 模型一旦生成 Token 便无法更改,错误容易随生成过程传播。
英伟达 Nemotron-Labs 推出的扩散语言模型(DLM)开辟了新路径。它通过并行生成多个 Token 并进行多次迭代优化来实现文本产出。这种“生成并完善”的特性不仅能更好地利用现代 GPU 的计算模型,提供显著的运行性能优势,还使其能够修订已生成的文本,非常适合处理填充(Fill-in-the-middle)任务。同时,该架构允许通过调整迭代步数来控制推理预算,在运行效率与生成质量之间取得平衡。
Nemotron-Labs Diffusion 系列涵盖了 3B、8B 和 14B 规模的文本模型,均采用商业友好的 NVIDIA Nemotron Open Model 授权协议。此外,英伟达还发布了一个 8B 规模的视觉语言模型(VLM)供研究使用。为了支持生态发展,英伟达同步开源了基于 Megatron Bridge 框架的训练代码,并支持通过 SGLang 进行高效部署与推理。