在一项最新发表的学术研究中,来自多所顶尖高校和科研机构的研究者们提出了一种名为“异构智能体协同强化学习”(Heterogeneous Agent Collaborative Reinforcement Learning,简称 HACRL)的新框架。该研究针对当前独立多智能体同策略(on-policy)优化效率低下的痛点,引入了一种基于可验证奖励强化学习(RLVR)的全新范式,旨在打破不同架构 AI Agent 之间的训练壁垒。
传统的 LLM 多智能体强化学习(MARL)通常要求在推理阶段进行复杂的协同部署,而传统的同/异策略知识蒸馏则仅支持单向的“教师到学生”同质化知识传递。相比之下,HACRL 创新性地实现了“训练时协同优化,推理时独立执行”。在训练过程中,拥有不同参数规模和架构的异构 Agent 可以共享经过验证的 Rollout(轨迹数据),从而实现双向的互助学习;而在实际推理部署时,各 Agent 依然保持完全独立运行,极大地降低了部署门槛和运行时通信开销。
基于这一理论,研究团队进一步提出了名为 HACPO(异构智能体协同策略优化)的具体算法。为了解决由于 Agent 能力差异及策略分布偏移(policy distribution shifts)带来的挑战,HACPO 引入了四种定制化机制,并在理论上提供了无偏优势估计(unbiased advantage estimation)的严格证明,确保了在共享 Rollout 数据的同时,各 Agent 的策略更新依然能够收敛至最优解。
在多种异构模型组合以及复杂推理基准测试上的广泛实验表明,HACPO 能够一致地提升所有参与协同训练的 Agent 性能。与基线算法 GSPO 相比,HACPO 仅消耗其一半的 Rollout 采样成本,性能却平均提升了 3.6%(即便是在 GSPO 使用了双倍的 Rollout 数据的情况下)。这不仅证明了跨智能体知识转移的有效性,也大幅提升了强化学习在 Agent 场景下的样本利用率。
【AgentUpdate 深度解析】 HACRL/HACPO 的提出,为 AI Agent 生态提供了一种极具启发性的“群智共训”新范式。当前,Agent 领域面临着一个严峻的权衡:要么使用昂贵的大模型以获得强推理能力,要么使用廉价的小模型但牺牲泛化度。HACRL 巧妙地化解了这一矛盾。它允许异构的小模型与大模型在训练期“组队”互助——大模型输出的高质量推理轨迹能直接反馈给小模型,小模型的探索多样性也能反哺大模型,而到了应用阶段,它们又各自独立,无需绑定部署。这种“共训分推”的模式横向对比传统的同质化蒸馏(如 Distillation)或重度耦合的 MARL 架构,不仅极大降低了端侧 Agent 的上线成本,更打破了模型尺寸壁垒,为多尺寸模型混合、低成本敏捷 Agent 网络的构建奠定了坚实的算法基础。