⚡ Labs

HACRL框架发布:异构大模型协同增强学习,显著提升推理效率

HACRL框架发布:异构大模型协同增强学习,显著提升推理效率

近日,研究人员提出了一种名为“异构智能体协同增强学习”(HACRL)的新型范式,旨在解决独立多智能体在策略优化(On-policy optimization)中的效率瓶颈。HACRL 建立在可验证奖励增强学习(RLVR)的基础上,其核心创新在于:允许异构智能体在训练期间共享经过验证的采样轨迹(Rollouts)以实现互助改进,而在推理阶段则保持完全独立的运行。

与传统的基于大语言模型(LLM)的多智能体增强学习(MARL)不同,HACRL 并不要求推理时的协调部署。此外,它也区别于常见的策略蒸馏方法,因为它实现了异构智能体之间的双向互学习,而非单一的从“教师”到“学生”的同质化知识迁移。

基于这一概念,研究团队开发了 HACPO(异构智能体协同策略优化)算法。HACPO 能够以原则化的方式共享采样轨迹,从而最大化样本利用率和跨智能体知识转移。为了应对不同模型间的能力差异和策略分布偏移,HACPO 引入了四种定制机制,并在理论上保证了优势估计(Advantage Estimation)的无偏性。

在涵盖多种异构模型组合和推理基准测试的广泛实验中,HACPO 表现卓越。结果显示,HACPO 能够持续提升所有参与智能体的性能。相比之下,即使在采样成本减少一半的情况下,HACPO 的表现仍比使用两倍采样量的 GSPO 算法平均高出 3.6%。这证明了异构协同在提升复杂推理任务效率方面的巨大潜力。

↗ 阅读原文