SOURCE // LABS

ACL 2026:动态填充锚点DIA提升扩散大模型格式化生成

ACL 2026:动态填充锚点DIA提升扩散大模型格式化生成

在当前的大语言模型研究中,扩散大语言模型(dLLMs)凭借其独特的双向注意力和并行生成机制,正展现出巨大的潜力。与传统的自回归模型不同,dLLMs 能够天然地利用全局上下文,并原生支持诸如可解析的 JSON 格式或复杂的推理模板等格式约束任务。

然而,现有的限制方法通常依赖于静态的固定锚点(Fixed Anchors)。这些硬性的区间限制往往会带来严重的副作用:如果空间给得太小,会强制中断模型的推理过程;如果空间给得太大,又会产生大量冗余的无效内容。为了解决这一痛点,来自学术界的研究团队提出了一种名为 动态填充锚点(Dynamic Infilling Anchors, DIA) 的创新方法,该研究已被 ACL 2026 录用。

DIA 是一种无需训练(Training-free)的即插即用方法。它的核心思想是在模型进行迭代填充生成之前,动态地估计并预测结束锚点(End-Anchor)的位置,从而自适应地调整生成长度。这种灵活的调节机制既确保了输出结构的绝对正确性,又保障了语义的连贯性,彻底告别了传统固定区间方法的低效弊端。

实验结果表明,在主流的数学推理基准测试 GSM8KMATH 上,DIA 显著提升了模型的格式合规率和答案准确度,实现了极具代表性的零样本(Zero-shot)性能飞跃。这表明 DIA 为实现高可靠性、结构感知的扩散模型生成铺平了道路。

AgentUpdate 深度解析

在当前 AI Agent 的实际应用中,结构化输出(如 JSON 格式的工具调用)是实现可靠工作流的基石。传统的自回归模型多采用受控解码(如 Outlines 或 Instructor),但这往往会限制模型的推理自由度,导致生成效率低下。相比之下,扩散大语言模型(dLLMs)具备天然的双向注意力和并行生成优势。而 DIA 技术的引入,通过动态预测锚点打破了固定长度的枷锁,允许 Agent 在填充槽位时实现“全局规划”与“双向协同”。这种无需训练的即插即用机制,为未来 AI Agent 实现高并发、低延迟的复杂多步骤推理及精确工具调用提供了全新的底层架构范式,标志着智能体从‘走一步看一步’的单向推演迈向‘全局统筹’的双向构建。