如何利用 SFT 与 DPO 提升 AI Agent 工具调用准确率

AI Agent（智能体）能够自主处理复杂且多步骤的任务，但其成败关键在于能否准确调用合适的工具来检索信息或执行操作。一旦 Agent 选择了错误的工具、格式化参数不正确，或是中断了工作流链条，就会导致任务完成时间变长、错误率飚升、支持成本增加，并最终导致用户体验极度恶化。随着越来越多的企业将 Agent 应用从试点阶段推向生产环境，确保 Agent 能够为每个请求选择正确的工具，已成为实现高可靠自动化的核心基石。

在本文中，您将学习如何结合使用监督微调（SFT）和直接偏好优化（DPO），来显著提升轻量化大模型（SLM）的工具调用准确率。本示例基于 Amazon SageMaker AI 训练任务，使您可以专注于编写训练代码，而无需耗费精力管理底层的训练基础设施。此外，您还将学习如何评估工具调用的准确性，并将基础模型与多个微调后的变体进行对比，从而基于数据做出关于模型质量的科学决策。

微调方法论详解

监督微调（SFT）涉及构建与模型预期功能高度对齐的高质量数据集，为模型如何执行特定任务或与特定工具进行交互提供明确的示例。这种方法在教会模型识别特定工具的语言细微差别、指令规范以及参数约束方面特别有效。

直接偏好优化（DPO）则通过将人类反馈或预定义目标直接融入训练循环，来进一步精炼这些工具交互行为。DPO 通过强调对某些特定响应或行为的偏好，使模型的输出与目标结果更加契合。DPO 的训练数据包含“像这样，而不是那样”的偏好对，这实现了与强化学习（RL）相同的优化目标，却无需定义复杂的奖励函数或训练奖励模型。这种方法在保持模型质量的同时，大幅降低了资源开销和训练时间。

例如，用于 DPO 的 HuggingFace TRL 库接收以下格式的训练样本：

{
    "prompt": ["<输入样本数组>"],
    "chosen": "<完整首选响应 (j)>",
    "rejected": "<完整非首选响应 (k)>"
}

这种基于反馈驱动的方法可以根据训练数据中真实的实际使用模式，实现对模型工具交互能力的迭代改进。结合使用 SFT 和 DPO，构成了一个极其强大的微调框架，用于训练语言模型对接广泛的数字化工具。利用这些技术，您可以构建出不仅能理解和生成拟人化文本，还能通过自主与外部应用程序交互来执行复杂任务的 AI 系统，从而在消费者和企业环境中拓宽 AI 的应用范围与实用价值。

AgentUpdate 深度解析

在当前 AI Agent 的工程落地中，工具调用（Tool-Calling）的准确性是制约其迈向生产环境的关键瓶颈。传统的 SFT 虽然能让模型学会基础的格式规范，但在复杂的链式决策中，模型极易因为微小的偏差导致后续步骤满盘皆输。引入 DPO（直接偏好优化）的精妙之处在于，它通过“正确/错误”的双向对比反馈，为模型建立了容错边界与决策约束。这不仅免去了传统 RLHF 复杂的奖励模型设计，还大幅降低了计算开销。更重要的是，将 SFT 与 DPO 的组合拳应用于轻量化大模型（SLM），是当前企业级 Agent 部署的核心趋势。它证明了通过精细化的数据对齐，百亿参数以下的小模型完全可以在垂直领域展现出媲美超大模型的工具调用精度，为实现低延迟、高隐私和高性价比的边缘 Agent 落地开辟了切实可行的技术路径。

如何利用 SFT 与 DPO 提升 AI Agent 工具调用准确率

推荐阅读

扣子3.0实测：跨端协同，手机秒变电脑Agent遥控器

李飞飞定义“世界模型”：渲染、模拟与规划边界正在消融

香港首个生产力级超级智能体发布：HKGAI V3大模型重磅登场

相关工具与资源推荐

相关技能市场

Anthropic Agent Skills

TokRepo

Skill Atlas