FML-bench开源：首个解耦AI科研Agent策略与基建的评测框架

随着AI科研Agent（如自动化机器学习研究工具）的快速发展，它们通过自动化提出假设、执行实验和经验优化，极大地加速了机器学习研究。然而，现有的Agent策略各异（从贪婪爬山法到树搜索，再到进化优化），究竟是何种策略选择决定了最终性能，目前仍不明确。传统的评测基准往往将Agent的“搜索策略”（如搜索拓扑结构）与“执行基础设施”（如代码编辑器、编译器）混为一谈，导致无法准确归因。此外，现有基准缺乏过程级度量指标，难以分析Agent的探索行为。

为了解决这一痛点，研究团队推出了 FML-bench。这是一个包含 10 个领域、18 个基础机器学习研究任务的全新基准测试。FML-bench 的核心创新在于将Agent的“搜索策略”与“执行基础设施”彻底分离开来，并定义了 12 个过程级的行为度量指标，用以深度剖析Agent的探索动态。

通过对 6 个代表性Agent进行系统性评估，研究人员得出了以下三个颠覆性发现：

首先，策略复杂度本身并不能保证强大的性能。令人意外的是，一个简单的“贪婪爬山法”（Greedy Hill-climber）Agent的性能几乎与表现最好的“树搜索”（Tree-search）Agent持平，且两者都显著优于其他四种更复杂的Agent。

其次，性能差异与“提升机会的结构”密切相关。分析表明，当优化机会较为密集时，贪婪搜索往往更有效；而当机会较为稀疏（即遇到瓶颈）时，树搜索和进化策略则能表现出更强的生命力。基于此发现，研究人员构建了一个“自适应Agent”，它能在检测到性能停滞时主动切换到更广泛的探索模式。该自适应Agent最终击败了所有 6 个基线Agent，有力地验证了这一假设。

最后，过程级分析表明，早期收敛和方向聚焦的探索与最终性能高度相关，而解决方案的多样性和计算成本却与最终成绩没有显著关联。这意味着，盲目堆砌计算资源或追求解的多样性并不能带来更好的科研成果，精准的方向选择和及时的收敛才是关键。

目前，FML-bench 的基准测试代码已正式开源，旨在为AI科研Agent的算法设计和策略优化提供标准化的研究沙盒。

【AgentUpdate 深度解析】 长期以来，AI Agent 的评测一直处于“黑盒”状态。诸如 SWE-bench 等传统基准，往往将大模型的推理策略与运行环境（如Docker、Git、API调用）高度耦合，导致我们无法辨别一个 Agent 的失败是因为“脑子不好使”（搜索与推理策略失效），还是因为“手脚不协调”（代码执行与工具调用出错）。FML-bench 首次实现了两者的解耦，这在 AI Agent 生态演进中具有里程碑式的意义。它表明，未来的 Agent 研发将进入类似于传统操作系统中“算法”与“驱动”相分离的精细化时代。同时，研究提出的自适应探索机制，揭示了元认知（Meta-cognition）在 Agent 架构中的核心价值：Agent 不仅要会做任务，更要学会自我监控，并在陷入局部最优时动态调整认知策略。这种“冷思考”与“热执行”的动态切换，正是迈向下一代通用人工智能（AGI）科研助手的必经之路。

FML-bench开源：首个解耦AI科研Agent策略与基建的评测框架

推荐阅读

亚马逊卫星互联网负责人就蓝色起源火箭爆炸发布内部备忘录

OpenAI研究员建议：职场新人应把工作当作“试驾”

微软内部调查曝光：AI转型下的员工情绪与压力博弈