News

LLM智能体工具调用新突破:无需推理即可判断工具需求

LLM智能体工具调用新突破:无需推理即可判断工具需求

大型语言模型(LLM)智能体在执行任务时,往往会不加选择地调用外部工具,即便模型本身可以直接给出答案。这种不必要的工具调用不仅会增加API费用,还会引入额外的延迟。然而,目前业界缺乏一个系统性的基准来研究何时才是真正需要调用工具的场景。

为此,研究人员提出了一个名为When2Tool的新型基准,它包含了18个环境(15个单步任务,3个多步任务)。这些环境涵盖了三种关键的工具必要性类别:计算规模、知识边界和执行可靠性。When2Tool还通过精细控制的难度级别,在工具必要和不必要任务之间划定了清晰的决策边界。

研究团队评估了两类无需训练的基线方法:Prompt-only(通过调整提示来抑制不必要的工具调用)和Reason-then-Act(要求模型在行动前推理工具的必要性)。结果显示,这两种方法都表现出局限性。Prompt-only在抑制不必要调用的同时,也会错误地抑制必要的工具调用;而Reason-then-Act在处理复杂任务时,会带来不成比例的准确性损失。

为了探究这些基线失败的原因,研究人员深入探查了模型的隐藏状态。他们惊奇地发现,在模型生成响应之前的表示中,工具调用需求的信息是可线性解码的,其AUROC(受试者工作特征曲线下面积)在六个不同的模型中达到了0.89-0.96,远超模型自身口头表达的推理能力。这表明LLM模型实际上“心知肚明”何时需要工具,但在生成过程中未能有效利用这些内在知识。

基于这一重要发现,研究团队提出了一种名为Probe&Prefill的新方法。该方法利用一个轻量级的线性探针来读取模型隐藏状态中的信号,并据此预填充模型的响应,引导其做出正确的工具调用决策。实验结果令人鼓舞:Probe&Prefill在所有测试模型上,成功将工具调用次数减少了48%,而准确性损失仅为1.7%。相比之下,在相似准确性水平下,表现最佳的基线方法只能减少6%的工具调用,或者为了实现类似的工具调用减少而带来高达5倍的准确性损失。该研究的代码已公开可用。

↗ 阅读原文