DeepSeek研究员陈德里近日在其个人博客发布了一篇研究综述论文,并透露其中“1%是我写的,99%是Agent写的”。他表示,整篇论文的完成,人类大脑处理问题的“总CPU时间”不到2小时,这相比以往至少需要一个月的工作量,效率实现了质的飞跃。
这篇由陈德里与DeepSeek-V4-Pro共同撰写的论文,主要利用了自研技能DeliAutoResearch进行研究和写作,并辅以GPT-Image2进行配图。论文总共迭代了6次(V1版迭代4次,V2版迭代1次,V3版迭代1次),历时6天完成。在此过程中,Agent累计被调用了约108轮,消耗了64.8万token,并生成了2234行LaTeX代码。论文包含了103个已验证的参考文献,最终呈现为46页、538KB,并包含7个图表和4个表格。
该论文的核心内容是建立了一个针对自动研究智能体的L1-L5自主度分类体系。通过分析四大主流架构模式,论文对比了它们在可扩展性、成本和可靠性等多个维度上的表现。此外,论文还基于一个六维特征矩阵,对17个主流智能体系统进行了深入分析,并提出了六大开放性问题及相应的研究方向。
陈德里认为,基础模型的发展正在推动AI工具从研究辅助工具向自主研究智能体转变。为了应对当前领域内缺乏统一框架、术语混乱、评估标准不一的局面,他与AI合著者们提出了L1-L5的自主分级体系,旨在为AI Agent领域提供一个清晰的谱系,类似于自动驾驶的SAE分级。
具体而言,该分类体系将智能体的自主性划分为:
- L1:自动补全。 如最早的GitHub Copilot,预测下一行代码。
- L2:任务执行。 如ChatGPT/Claude聊天机器人结合各种工具,能分解任务,但每一步都需要人类批准。
- L3:多步骤执行。 如Claude Code、Cursor Agent,能自主执行10到100步,仅在关键点请求人类审核。
- L4:受限领域内全自主执行。 人类仅提供研究目标并评估最终成果,智能体可自主完成多步实验、代码、论文撰写,但无法自主选择研究问题。目前行业前沿初步达到此级别。
- L5:完全自定研究议程。 智能体可自主选题、分配资源、长期积累知识、跨领域持续研究。这是当前尚未实现的理想状态,其核心瓶颈在于持续知识积累、可靠自我评估和架构规模化。
除了自主性分级,论文还总结了当前智能体领域的4种主流架构模式:
- 单智能体循环: 以ReAct、Reflexion、LATS、思维树等早期研究为代表,通过单模型迭代推理-行动-观察。其特点是简单高效,但处理复杂任务的能力有限。
- 多智能体协作: 以CAMEL、AutoGen、MetaGPT等早期智能体框架为代表,特点是分工协作、多视角纠错,但成本较高,且沟通易产生混乱。
- 分层调度: 以Claude Code和Devin为代表,通过分层规划和任务分解,适合长时程复杂研究。
- 工具增强执行: 以SWE-Agent为代表,其核心是结合代码执行环境、网页浏览、API/数据库、多模态工具等。Agent-Computer Interface(ACI)的设计直接影响其性能。
论文指出,这四种模式并非优劣之分,而应根据特定任务选择合适的工具。实际应用中,通常会采用混合架构以结合多种模式的优势。通过横向对比17个主流自主研究智能体,论文揭示该领域已从早期的通用脆弱原型,演进为L4级受限领域的专用系统,其中代码智能体成熟度最高,科学智能体也开始产出可验证的新发现。
最后,论文提出了当前AI Agent研究面临的六大开放性问题:
- 认知循环陷阱: 智能体可能陷入重复无效的策略,缺乏自我终止能力。
- 上下文限制: 固定的上下文窗口(4K-1M token)难以支撑长时程的复杂研究。
- 创新性评估: 缺乏自动化方法来衡量研究的原创性和价值。
- 可复现性: 模型随机性和提示敏感性导致结果难以复现。
- 安全伦理: 涉及双用途风险、自主提升风险和学术诚信风险。
- 成本问题: 单任务高成本加剧科研不平等。
陈德里也分享了个人感受,表示正是AI Agent的帮助,让他得以重新拾起因高强度工作而搁置的博客和写作,从“执行者”转变为“发起者”,极大地提升了任务完成效率。