DeepSeek研究员用AI Agent写论文，人类仅“动脑”2小时

DeepSeek研究员陈德里近日在其个人博客发布了一篇研究综述论文，并透露其中“1%是我写的，99%是Agent写的”。他表示，整篇论文的完成，人类大脑处理问题的“总CPU时间”不到2小时，这相比以往至少需要一个月的工作量，效率实现了质的飞跃。

这篇由陈德里与DeepSeek-V4-Pro共同撰写的论文，主要利用了自研技能DeliAutoResearch进行研究和写作，并辅以GPT-Image2进行配图。论文总共迭代了6次（V1版迭代4次，V2版迭代1次，V3版迭代1次），历时6天完成。在此过程中，Agent累计被调用了约108轮，消耗了64.8万token，并生成了2234行LaTeX代码。论文包含了103个已验证的参考文献，最终呈现为46页、538KB，并包含7个图表和4个表格。

该论文的核心内容是建立了一个针对自动研究智能体的L1-L5自主度分类体系。通过分析四大主流架构模式，论文对比了它们在可扩展性、成本和可靠性等多个维度上的表现。此外，论文还基于一个六维特征矩阵，对17个主流智能体系统进行了深入分析，并提出了六大开放性问题及相应的研究方向。

陈德里认为，基础模型的发展正在推动AI工具从研究辅助工具向自主研究智能体转变。为了应对当前领域内缺乏统一框架、术语混乱、评估标准不一的局面，他与AI合著者们提出了L1-L5的自主分级体系，旨在为AI Agent领域提供一个清晰的谱系，类似于自动驾驶的SAE分级。

具体而言，该分类体系将智能体的自主性划分为：

L1：自动补全。 如最早的GitHub Copilot，预测下一行代码。
L2：任务执行。 如ChatGPT/Claude聊天机器人结合各种工具，能分解任务，但每一步都需要人类批准。
L3：多步骤执行。 如Claude Code、Cursor Agent，能自主执行10到100步，仅在关键点请求人类审核。
L4：受限领域内全自主执行。 人类仅提供研究目标并评估最终成果，智能体可自主完成多步实验、代码、论文撰写，但无法自主选择研究问题。目前行业前沿初步达到此级别。
L5：完全自定研究议程。 智能体可自主选题、分配资源、长期积累知识、跨领域持续研究。这是当前尚未实现的理想状态，其核心瓶颈在于持续知识积累、可靠自我评估和架构规模化。

除了自主性分级，论文还总结了当前智能体领域的4种主流架构模式：

单智能体循环： 以ReAct、Reflexion、LATS、思维树等早期研究为代表，通过单模型迭代推理-行动-观察。其特点是简单高效，但处理复杂任务的能力有限。
多智能体协作： 以CAMEL、AutoGen、MetaGPT等早期智能体框架为代表，特点是分工协作、多视角纠错，但成本较高，且沟通易产生混乱。
分层调度： 以Claude Code和Devin为代表，通过分层规划和任务分解，适合长时程复杂研究。
工具增强执行： 以SWE-Agent为代表，其核心是结合代码执行环境、网页浏览、API/数据库、多模态工具等。Agent-Computer Interface（ACI）的设计直接影响其性能。

论文指出，这四种模式并非优劣之分，而应根据特定任务选择合适的工具。实际应用中，通常会采用混合架构以结合多种模式的优势。通过横向对比17个主流自主研究智能体，论文揭示该领域已从早期的通用脆弱原型，演进为L4级受限领域的专用系统，其中代码智能体成熟度最高，科学智能体也开始产出可验证的新发现。

最后，论文提出了当前AI Agent研究面临的六大开放性问题：

认知循环陷阱： 智能体可能陷入重复无效的策略，缺乏自我终止能力。
上下文限制： 固定的上下文窗口（4K-1M token）难以支撑长时程的复杂研究。
创新性评估： 缺乏自动化方法来衡量研究的原创性和价值。
可复现性： 模型随机性和提示敏感性导致结果难以复现。
安全伦理： 涉及双用途风险、自主提升风险和学术诚信风险。
成本问题： 单任务高成本加剧科研不平等。

陈德里也分享了个人感受，表示正是AI Agent的帮助，让他得以重新拾起因高强度工作而搁置的博客和写作，从“执行者”转变为“发起者”，极大地提升了任务完成效率。

DeepSeek研究员用AI Agent写论文，人类仅“动脑”2小时

推荐阅读

快手Keye-VL 2.0发布：DSA与Agent解锁长视频深度推理新范式

2026 AI Partner大会：大模型落地挑战与产业价值回归

AI Agent成本失控？实时遥测与Claude Code优化攻略

相关工具与资源推荐

相关技能市场

Matt Pocock's AI Skills