腾讯科技近期发布了一项重量级的AI Agent能力评测报告。该研究针对30个主流AI技能(Skills),在150个真实业务场景任务下进行了严苛测试。研究团队发现,虽然大语言模型(LLM)的底层智力在不断攀升,但在具体的Agent技能执行层面,其实际表现与行业认知存在显著偏差。
首先,报告提出了一个核心观点:模型规模并非决定技能好坏的唯一指标。在处理特定领域的API调用或简单逻辑任务时,经过指令微调的中小型模型往往能表现出比超大规模模型更高的准确率和更低的延迟。这种“小而精”的趋势预示着企业级Agent应用的新方向。
在稳定性方面,测试得出了令人担忧的结论:Agent的成功率随任务链路的增加呈指数级下降。这意味着,一个涉及5步以上操作的复杂任务,即使每一步的成功率都有90%,最终的整体成功率也会降至60%以下。此外,Prompt的敏感度远超预期,微小的格式变动可能导致Tool-calling彻底失效。
报告总结了7个反直觉结论,重点包括:1. Chain-of-Thought(CoT)在简单任务中反而容易引入幻觉;2. RAG的检索精度往往是瓶颈而非模型本身;3. 多Agent协作在目前阶段的通信损耗大于效率提升。这些发现为正在开发Agentic Workflow的从业者提供了极具价值的避坑指南。