News

大模型Agent“结构化不确定性”:提升工具调用效率与准确性

大模型Agent“结构化不确定性”:提升工具调用效率与准确性

大型语言模型(LLM)Agent在执行工具调用任务时,经常会因为用户指令模糊或不完整而“犯错”,导致工具被错误调用,进而任务失败。现有的一些解决方案通常在非结构化的语言空间中操作,通过提示策略生成澄清问题,但这些策略缺乏原则性的标准来决定何时提问以及问什么问题。

针对这一痛点,一项最新研究提出了一种具有开创性的“结构化不确定性”(Structured Uncertainty)框架。该框架直接作用于工具的参数及其定义域,清晰地将“规格不确定性”(specification uncertainty,即用户到底想要什么)与“模型不确定性”(model uncertainty,即LLM预测的准确性)分离开来。研究人员利用“完美信息期望价值”(Expected Value of Perfect Information, EVPI)来量化每个潜在澄清问题的消歧价值,并结合“基于方面的成本模型”(aspect-based cost modeling)来有效避免冗余提问。

这项研究通过两个实际应用展示了该框架的强大能力。首先,在推理阶段,名为SAGE-Agent的系统利用结构化不确定性进行问题选择,与强大的提示工程方法及其他不确定性基线相比,SAGE-Agent在处理模糊任务时的任务覆盖率提高了7%到39%,同时将澄清问题的数量减少了1.5到2.7倍。

其次,研究表明结构化不确定性还能为训练过程提供有效的信号。通过不确定性加权的GRPO(Generalized Policy Optimization)训练,使用不确定性引导的奖励模型(reward modeling)显著提升了When2Call工具调用模型的准确性。具体而言,3B模型(30亿参数)的准确率从36.5%提升至65.2%,而7B模型(70亿参数)的准确率从36.7%提升至62.9%,这充分证明了该方法在提升工具调用Agent强化学习样本效率方面的巨大潜力。

为了全面评估这一框架,研究团队还发布了ClarifyBench,这是首个多轮动态工具调用消歧基准测试。这些结果共同确立了结构化不确定性作为一个原则性框架,能够显著提高工具增强型Agent在推理时的交互效率和训练时的样本效率。

↗ 阅读原文