IMAgent：强化学习赋能多图视觉代理，SOTA性能刷新认知

当前，基于视觉语言模型（VLM）的智能体旨在通过工具使用，复刻OpenAI O3的“通过图像思考”能力。然而，多数开源方案将输入限制在单张图像，这大大局限了它们在真实世界多图问答（QA）任务中的应用潜力。

为解决这一关键局限，研究人员推出了IMAgent，一个开源的视觉智能体。IMAgent采用端到端强化学习进行训练，专注于实现单图及多图场景下的精细化推理。在推理过程中，VLM倾向于逐渐忽视视觉输入；为缓解这一问题，IMAgent特别设计了两款专用工具：视觉反思（visual reflection）和视觉验证（visual verification）。这些工具使模型能够主动地将注意力重新聚焦于图像内容，确保持续有效的视觉信息处理。

IMAgent不仅具备强大的架构，更首次从注意力机制的角度揭示了工具使用如何增强智能体性能。IMAgent的有效工具使用范式完全通过纯强化学习习得，这得益于精心设计的两层运动轨迹掩蔽策略（two-layer motion trajectory masking strategy）和工具使用奖励增益（tool-use reward gain）。这种方法消除了对昂贵的监督微调数据的需求，解决了AI开发中的常见瓶颈。

为了进一步释放基础VLM固有的工具使用潜力并弥补数据空白，团队通过多智能体系统构建了一个富有挑战性、视觉信息丰富的多图问答数据集。广泛的实验验证表明，IMAgent在主流的单图和多图基准测试中均取得了最先进（SOTA）的性能。研究中深入的分析为社区提供了可操作的见解。IMAgent的代码和数据即将发布。

IMAgent：强化学习赋能多图视觉代理，SOTA性能刷新认知

推荐阅读

AutoVerifier：LLM驱动的智能体框架，智能核验复杂技术主张

大模型高效因果图发现：BFS算法突破查询瓶颈

前阿里云AWS高管42岁被裁，AI驱动云业务开启新篇章

相关工具与资源推荐

相关技能市场

Agent Skills Catalog