当前,基于视觉语言模型(VLM)的智能体旨在通过工具使用,复刻OpenAI O3的“通过图像思考”能力。然而,多数开源方案将输入限制在单张图像,这大大局限了它们在真实世界多图问答(QA)任务中的应用潜力。
为解决这一关键局限,研究人员推出了IMAgent,一个开源的视觉智能体。IMAgent采用端到端强化学习进行训练,专注于实现单图及多图场景下的精细化推理。在推理过程中,VLM倾向于逐渐忽视视觉输入;为缓解这一问题,IMAgent特别设计了两款专用工具:视觉反思(visual reflection)和视觉验证(visual verification)。这些工具使模型能够主动地将注意力重新聚焦于图像内容,确保持续有效的视觉信息处理。
IMAgent不仅具备强大的架构,更首次从注意力机制的角度揭示了工具使用如何增强智能体性能。IMAgent的有效工具使用范式完全通过纯强化学习习得,这得益于精心设计的两层运动轨迹掩蔽策略(two-layer motion trajectory masking strategy)和工具使用奖励增益(tool-use reward gain)。这种方法消除了对昂贵的监督微调数据的需求,解决了AI开发中的常见瓶颈。
为了进一步释放基础VLM固有的工具使用潜力并弥补数据空白,团队通过多智能体系统构建了一个富有挑战性、视觉信息丰富的多图问答数据集。广泛的实验验证表明,IMAgent在主流的单图和多图基准测试中均取得了最先进(SOTA)的性能。研究中深入的分析为社区提供了可操作的见解。IMAgent的代码和数据即将发布。