News

DFPO:大模型后训练新范式,强化学习迈向泛化与鲁棒性

DFPO:大模型后训练新范式,强化学习迈向泛化与鲁棒性

在现实环境中训练强化学习(RL)系统,尤其是在大语言模型(LLM)的后训练阶段,面临着严峻挑战,主要体现在监督信号噪声大和域外(OOD)泛化能力差。尽管近期分布式强化学习方法(distributional RL)通过建模多个分位数点来提升鲁棒性,但它们通常将每个分位数独立学习为标量,导致价值表示粒度较粗,难以对状态信息进行细粒度条件化,在复杂和OOD条件下表现不佳。

为解决这些痛点,一个名为DFPO(Distributional Value Flow Policy Optimization with Conditional Risk and Consistency Control)的鲁棒分布式强化学习框架应运而生。DFPO创新性地将价值建模为跨时间步的连续流,通过学习一个“价值流场”而非孤立的分位数预测,实现了价值建模的扩展,从而捕获更丰富的状态信息,实现更精准的优势估计。此外,为应对噪声反馈并稳定训练,DFPO进一步沿价值流轨迹整合了条件风险控制和一致性约束。在对话、数学推理和科学任务上的实验表明,在噪声监督下,DFPO显著优于PPO、FlowRL等现有基线,在训练稳定性和泛化能力上取得了显著提升。

↗ 阅读原文