⚡ News

英伟达Nemotron扩散模型:打破自回归,实现并行文本生成

英伟达Nemotron扩散模型:打破自回归,实现并行文本生成

大语言模型(LLM)已经成为代码生成、数学解题、文本摘要及文档理解等开发者工作流的默认接口。然而,在底层,绝大多数大模型仍然采用传统的“自回归”(Autoregressive, AR)方式生成文本:即每次仅生成一个 Token,且每个新生成的 Token 都严格依赖于之前已生成的 Token。

尽管自回归方法在训练稳定性、部署简易度上表现卓越,并推动了现代语言模型的巨大进步,但也带来了一个物理极限:生成每个新 Token 都需要进行一次完整的模型前向传播,并且在计算开始前必须从内存中加载所有权重。对于延迟敏感型应用、运行较小 Batch Size 或试图最大化利用现代 GPU 的开发者而言,这种逐字生成的模式会导致大量 GPU 时间被浪费在内存读写操作(Memory Operations)而非实际计算上,从而牺牲了性能。

此外,自回归模型一旦生成某个 Token,其结果便是最终确定的,模型本身缺乏修改前序 Token 的能力。这就导致生成过程中的微小错误极易在后续文本中不断累积和放大。

为此,英伟达 Nemotron-Labs 推出了全新的解决方案:扩散语言模型(Diffusion Language Models, DLM)。该模型通过并行生成多个 Token,并在多个步骤中迭代优化这些生成的 Token。这种“生成并改进”(Generate-and-Refine)的特性不仅能够更好地契合现代 GPU 的计算架构,提供显著的运行期性能优势,还具备修改已生成 Token 的能力,使其非常适合文本修改和“填空”(Fill-in-the-Middle)任务。此外,这一特性还提供了一种内置的推理预算控制手段——通过减少微调和优化步骤,开发者可以在运行时直接降低模型的计算资源需求。

Nemotron-Labs Diffusion 家族涵盖了 3B、8B 和 14B 等不同参数规模的文本模型(均采用商用友好的 NVIDIA Nemotron Open Model License 开源协议),以及一个 8B 规模的视觉语言模型(VLM)。英伟达同时释放了模型权重、通过 NVIDIA Megatron Bridge 框架进行训练的代码和配方,以及支持通过 SGLang 进行高效部署与推理的集成方案。

【AgentUpdate 深度解析】Nemotron-Labs Diffusion 的推出代表着生成式 AI 范式正在向“多维迭代修正”演进。对 AI Agent 生态而言,这解决了两大痛点:首先,传统 Agent 链式推理一旦中间出错就会产生幻觉累积,而扩散模型的“可回溯与修正”特性为 Agent 提供了天然的自我纠错能力;其次,多 Agent 协同伴随高频的上下文交换,并行 Token 生成将极大压缩延迟瓶颈。未来,这种可根据算力预算动态调整“思考深度”的 DLM 架构,将成为低延迟、自主规划型 Agent 的底层关键基石。

↗ 阅读原文