随着AI科研Agent(如自动化机器学习研究工具)的快速发展,它们通过自动化提出假设、执行实验和经验优化,极大地加速了机器学习研究。然而,现有的Agent策略各异(从贪婪爬山法到树搜索,再到进化优化),究竟是何种策略选择决定了最终性能,目前仍不明确。传统的评测基准往往将Agent的“搜索策略”(如搜索拓扑结构)与“执行基础设施”(如代码编辑器、编译器)混为一谈,导致无法准确归因。此外,现有基准缺乏过程级度量指标,难以分析Agent的探索行为。
为了解决这一痛点,研究团队推出了 FML-bench。这是一个包含 10 个领域、18 个基础机器学习研究任务的全新基准测试。FML-bench 的核心创新在于将Agent的“搜索策略”与“执行基础设施”彻底分离开来,并定义了 12 个过程级的行为度量指标,用以深度剖析Agent的探索动态。
通过对 6 个代表性Agent进行系统性评估,研究人员得出了以下三个颠覆性发现:
首先,策略复杂度本身并不能保证强大的性能。令人意外的是,一个简单的“贪婪爬山法”(Greedy Hill-climber)Agent的性能几乎与表现最好的“树搜索”(Tree-search)Agent持平,且两者都显著优于其他四种更复杂的Agent。
其次,性能差异与“提升机会的结构”密切相关。分析表明,当优化机会较为密集时,贪婪搜索往往更有效;而当机会较为稀疏(即遇到瓶颈)时,树搜索和进化策略则能表现出更强的生命力。基于此发现,研究人员构建了一个“自适应Agent”,它能在检测到性能停滞时主动切换到更广泛的探索模式。该自适应Agent最终击败了所有 6 个基线Agent,有力地验证了这一假设。
最后,过程级分析表明,早期收敛和方向聚焦的探索与最终性能高度相关,而解决方案的多样性和计算成本却与最终成绩没有显著关联。这意味着,盲目堆砌计算资源或追求解的多样性并不能带来更好的科研成果,精准的方向选择和及时的收敛才是关键。
目前,FML-bench 的基准测试代码已正式开源,旨在为AI科研Agent的算法设计和策略优化提供标准化的研究沙盒。
【AgentUpdate 深度解析】 长期以来,AI Agent 的评测一直处于“黑盒”状态。诸如 SWE-bench 等传统基准,往往将大模型的推理策略与运行环境(如Docker、Git、API调用)高度耦合,导致我们无法辨别一个 Agent 的失败是因为“脑子不好使”(搜索与推理策略失效),还是因为“手脚不协调”(代码执行与工具调用出错)。FML-bench 首次实现了两者的解耦,这在 AI Agent 生态演进中具有里程碑式的意义。它表明,未来的 Agent 研发将进入类似于传统操作系统中“算法”与“驱动”相分离的精细化时代。同时,研究提出的自适应探索机制,揭示了元认知(Meta-cognition)在 Agent 架构中的核心价值:Agent 不仅要会做任务,更要学会自我监控,并在陷入局部最优时动态调整认知策略。这种“冷思考”与“热执行”的动态切换,正是迈向下一代通用人工智能(AGI)科研助手的必经之路。