打破单兵作战！HACRL框架实现异构AI Agent协同强化学习

在一项最新发表的学术研究中，来自多所顶尖高校和科研机构的研究者们提出了一种名为“异构智能体协同强化学习”（Heterogeneous Agent Collaborative Reinforcement Learning，简称 HACRL）的新框架。该研究针对当前独立多智能体同策略（on-policy）优化效率低下的痛点，引入了一种基于可验证奖励强化学习（RLVR）的全新范式，旨在打破不同架构 AI Agent 之间的训练壁垒。

传统的 LLM 多智能体强化学习（MARL）通常要求在推理阶段进行复杂的协同部署，而传统的同/异策略知识蒸馏则仅支持单向的“教师到学生”同质化知识传递。相比之下，HACRL 创新性地实现了“训练时协同优化，推理时独立执行”。在训练过程中，拥有不同参数规模和架构的异构 Agent 可以共享经过验证的 Rollout（轨迹数据），从而实现双向的互助学习；而在实际推理部署时，各 Agent 依然保持完全独立运行，极大地降低了部署门槛和运行时通信开销。

基于这一理论，研究团队进一步提出了名为 HACPO（异构智能体协同策略优化）的具体算法。为了解决由于 Agent 能力差异及策略分布偏移（policy distribution shifts）带来的挑战，HACPO 引入了四种定制化机制，并在理论上提供了无偏优势估计（unbiased advantage estimation）的严格证明，确保了在共享 Rollout 数据的同时，各 Agent 的策略更新依然能够收敛至最优解。

在多种异构模型组合以及复杂推理基准测试上的广泛实验表明，HACPO 能够一致地提升所有参与协同训练的 Agent 性能。与基线算法 GSPO 相比，HACPO 仅消耗其一半的 Rollout 采样成本，性能却平均提升了 3.6%（即便是在 GSPO 使用了双倍的 Rollout 数据的情况下）。这不仅证明了跨智能体知识转移的有效性，也大幅提升了强化学习在 Agent 场景下的样本利用率。

【AgentUpdate 深度解析】 HACRL/HACPO 的提出，为 AI Agent 生态提供了一种极具启发性的“群智共训”新范式。当前，Agent 领域面临着一个严峻的权衡：要么使用昂贵的大模型以获得强推理能力，要么使用廉价的小模型但牺牲泛化度。HACRL 巧妙地化解了这一矛盾。它允许异构的小模型与大模型在训练期“组队”互助——大模型输出的高质量推理轨迹能直接反馈给小模型，小模型的探索多样性也能反哺大模型，而到了应用阶段，它们又各自独立，无需绑定部署。这种“共训分推”的模式横向对比传统的同质化蒸馏（如 Distillation）或重度耦合的 MARL 架构，不仅极大降低了端侧 Agent 的上线成本，更打破了模型尺寸壁垒，为多尺寸模型混合、低成本敏捷 Agent 网络的构建奠定了坚实的算法基础。

打破单兵作战！HACRL框架实现异构AI Agent协同强化学习

推荐阅读

谷歌 I/O 2026 对话回顾：AI Agent 与具身智能的前沿碰撞

英伟达Nemotron扩散模型：打破自回归，实现并行文本生成

专有化击败规模化：为什么企业AI选型不该只看参数量？

相关工具与资源推荐

相关技能市场

Antigravity Awesome Skills

Awesome Agent Skills

Anthropic Agent Skills