DFPO：大模型后训练新范式，强化学习迈向泛化与鲁棒性

在现实环境中训练强化学习（RL）系统，尤其是在大语言模型（LLM）的后训练阶段，面临着严峻挑战，主要体现在监督信号噪声大和域外（OOD）泛化能力差。尽管近期分布式强化学习方法（distributional RL）通过建模多个分位数点来提升鲁棒性，但它们通常将每个分位数独立学习为标量，导致价值表示粒度较粗，难以对状态信息进行细粒度条件化，在复杂和OOD条件下表现不佳。

为解决这些痛点，一个名为DFPO（Distributional Value Flow Policy Optimization with Conditional Risk and Consistency Control）的鲁棒分布式强化学习框架应运而生。DFPO创新性地将价值建模为跨时间步的连续流，通过学习一个“价值流场”而非孤立的分位数预测，实现了价值建模的扩展，从而捕获更丰富的状态信息，实现更精准的优势估计。此外，为应对噪声反馈并稳定训练，DFPO进一步沿价值流轨迹整合了条件风险控制和一致性约束。在对话、数学推理和科学任务上的实验表明，在噪声监督下，DFPO显著优于PPO、FlowRL等现有基线，在训练稳定性和泛化能力上取得了显著提升。

DFPO：大模型后训练新范式，强化学习迈向泛化与鲁棒性

推荐阅读

Code Broker：谷歌ADK驱动的多智能体代码质量评估系统

LLM前馈网络"超节点"揭秘：剪枝关键核心

中间表示法成AI生成图像检测新利器，性能显著超越现有方案