HACRL框架发布：异构大模型协同增强学习，显著提升推理效率

近日，研究人员提出了一种名为“异构智能体协同增强学习”（HACRL）的新型范式，旨在解决独立多智能体在策略优化（On-policy optimization）中的效率瓶颈。HACRL 建立在可验证奖励增强学习（RLVR）的基础上，其核心创新在于：允许异构智能体在训练期间共享经过验证的采样轨迹（Rollouts）以实现互助改进，而在推理阶段则保持完全独立的运行。

与传统的基于大语言模型（LLM）的多智能体增强学习（MARL）不同，HACRL 并不要求推理时的协调部署。此外，它也区别于常见的策略蒸馏方法，因为它实现了异构智能体之间的双向互学习，而非单一的从“教师”到“学生”的同质化知识迁移。

基于这一概念，研究团队开发了 HACPO（异构智能体协同策略优化）算法。HACPO 能够以原则化的方式共享采样轨迹，从而最大化样本利用率和跨智能体知识转移。为了应对不同模型间的能力差异和策略分布偏移，HACPO 引入了四种定制机制，并在理论上保证了优势估计（Advantage Estimation）的无偏性。

在涵盖多种异构模型组合和推理基准测试的广泛实验中，HACPO 表现卓越。结果显示，HACPO 能够持续提升所有参与智能体的性能。相比之下，即使在采样成本减少一半的情况下，HACPO 的表现仍比使用两倍采样量的 GSPO 算法平均高出 3.6%。这证明了异构协同在提升复杂推理任务效率方面的巨大潜力。

HACRL框架发布：异构大模型协同增强学习，显著提升推理效率

推荐阅读

Google I/O 2026 对话实录：深入解析 AI 智能体与具身智能新突破

英伟达发布 Nemotron-Labs 扩散语言模型：突破自回归瓶颈，实现并行生成

专才胜过全才：30亿参数模型如何在特定领域击败顶级大模型