“1%是我写的,99%是Agent写的。”
近日,DeepSeek研究员陈德里(Deli Chen)在个人博客上更新了一篇关于自动研究智能体(Autonomous Research Agents)的学术综述论文。令人震惊的是,这篇长达46页、包含7个图表和4个表格、引用了103篇已验证参考文献的高质量论文,几乎完全由他自己开发的Agent技能——DeliAutoResearch自主撰写完成。
在整个创作过程中,底层大模型采用的是DeepSeek-V4-Pro进行研究和写作,配图则由GPT-Image2完成。整部著作经历了6次版本迭代,总耗时仅6天。期间,Agent共进行了约108轮调用,消耗了64.8万个Token,并自动生成了2234行标准的LaTeX代码。对于陈德里而言,他的碳基大脑在这项研究中的“总CPU时间”加起来不到2个小时。他直言,如果放在以前,同样的工作量至少需要一个人类研究员高强度工作一个月才能完成。
这篇论文的核心内容是探讨自动研究智能体(L1–L5)的自主度分类体系。类比自动驾驶的SAE级别,论文为当下混乱的AI Agent领域梳理出了一套清晰的演进谱系:
L1(自动补全):最基础的辅助阶段,如早期的GitHub Copilot,仅能根据上下文预测并补全下一行代码。
L2(任务执行):以当前的ChatGPT、Claude聊天机器人加上各种外接工具为代表,能够分解任务,但执行的每一步都需要人类手动批准。
L3(多步骤执行):以当前的Claude Code、Cursor Agent为代表,能自主执行10到100个步骤,只在关键节点向人类发起审核请求。
L4(受限领域内全自主执行):人类仅需提供宏观的研究目标并评估最终成果。智能体可以独立完成多步实验、编写代码并撰写论文,但其依然无法自主选择研究的具体问题。目前行业最前沿的技术已初步触及此阶段。
L5(完全自主研究):智能体能自主设定研究议程、选题、分配计算资源、长期积累跨领域知识并持续进行研究。这是目前尚未实现的理想状态,其核心瓶颈在于“持续知识积累”和“可靠的自我评估能力”。
除了自主性分级,论文还系统性地归纳了目前AI Agent的四种主流架构模式:
1. 单智能体循环(Single-Agent Loop):以ReAct、Reflexion、LATS、思维树(ToT)等早期研究为代表。单模型通过“推理-行动-观察”进行迭代,简单高效,但在面对高度复杂的任务时能力受限。
2. 多智能体协作(Multi-Agent Collaboration):以CAMEL、AutoGen、MetaGPT等框架为代表,特点是分工明确、多视角纠错,但开发与运行成本较高,且容易产生沟通混乱。
3. 分层调度(Hierarchical Planning):以Claude Code和Devin等为代表,通过分层规划和任务分解来应对长时程(Long-horizon)的复杂研究任务。
4. 工具增强执行(Tool-Augmented Execution):以SWE-Agent为代表,依赖于代码执行环境、网页浏览和数据库等外部工具,智能体-计算机接口(ACI)的设计直接决定了其性能上限。
此外,论文还客观地指出了迈向更高级别Agent所面临的六大开放性挑战:包括智能体陷入无意义重复策略的“认知循环陷阱”、固定窗口限制的长时程研究障碍、缺乏自动化手段评估创新性的“创新性评估”、模型随机性导致的可复现性问题、安全与学术诚信等伦理风险,以及高昂的调用成本可能加剧的科研资源不平等问题。
【AgentUpdate 深度解析】陈德里的实践标志着AI Agent正式从“效率工具”走向“生产力平权”。通过将大模型与垂直领域的L4级自主科研流(DeliAutoResearch)深度融合,人类得以将繁琐的文献检索、代码复现与论文撰写等低效重复劳动完全托管。横向对比来看,虽然目前主流工具如Claude Code和Cursor已在软件开发上展现L3/L4级别能力,但在需要强逻辑闭环、长时程推演及持续自我纠错的“科学探索”场景中,基于混合架构的分层调度Agent(如DeepSeek-V4驱动的多智能体协同)将成为未来主流。这将重塑科研生态,未来AI Agent的关键壁垒不仅在于底层模型的推理极限(Reasoning Limit),更在于如何设计更具鲁棒性的Agent-Computer Interface(ACI)和持续知识沉淀机制,推动人机协同从“Copilot”向“Co-Researcher”跨越。