⚡ Labs

6.4k星!利用Claude Code全流程写论文,开源神器ARS火了

6.4k星!利用Claude Code全流程写论文,开源神器ARS火了

用 Claude Code 写论文的一整套全自动工作流,最近在开源社区引发了巨大轰动。这个名为 academic-research-skills (ARS) 的项目在 GitHub 上迅速斩获了 6.4k 颗星。它完全击中了科研人员和学生群体的痛点,通过将学术研究、论文撰写、审稿以及定稿四个核心环节打包成一系列 Claude Code 技能包,实现了真正的一条龙学术流水线。

ARS 的核心架构由四个各司其职的技能(Skills)组成。首先是 Deep Research,这是一支由 13 个智能体(Agent)组成的研究团队。它负责文献调研、构建研究问题和设计方法论,甚至能撰写系统性的 PRISMA 综述。团队中还配备了调用 Semantic Scholar API 验证引用真实性的溯源 Agent,通过对话引导思路的苏格拉底导师 Agent,以及专门寻找研究漏洞、防止思维定势的'魔鬼代言人' Agent。

其次是 Academic Paper 写作团队,包含 12 个 Agent。它们覆盖了大纲设计、论证构建、草稿撰写、双语摘要生成、图表可视化以及引用格式转换等全流程。值得一提的是它的风格校准功能,AI 能够通过学习用户过往作品的写作风格,生成更具个性化、告别'AI味'的内容,并支持导出为 Markdown、DOCX 和 LaTeX 格式(可编译为 APA 7.0 或 IEEE 格式的 PDF)。

第三个部分是 Academic Paper Reviewer,这是一个由 7 个 Agent 组成的模拟审稿团队。它还原了真实学术期刊的评审流程:由主编(EIC)带领三位领域审稿人以及一位魔鬼代言人,从方法论、学科视角、跨学科价值等多维度量化打分(0-100分)。80分以上接收,65-79分小修,50-64分大修,50分以下拒稿,并输出详尽的修改路线图。

最后,Academic Pipeline 作为流程编排器,将上述三大团队串联成一个包含 10 个阶段的流水线(从研究、写作到完整性检查、同行评审、修订等)。用户可以在任意阶段切入。在运行成本上,一篇 1.5 万字论文的完整流程花费仅需 4 到 6 美元。

不同于普通的 AI 写作套壳工具,ARS 在底层设计上引入了多项防止 AI 翻车的硬核机制。首先是引用核验:利用 Levenshtein 模糊匹配算法(阈值设定为 0.70 以上)对每一篇文献进行 Semantic Scholar API 的存在性确认,杜绝幻觉引用。其次是完整性闸门:在流水线的 Stage 2.5 和 Stage 4.5 设置了不可跳过的检查闸门,运行一份来自 2026 年 Nature 发表的 7 项 AI 失败模式检查清单。任何疑似问题必须在后续阶段被清除或由人工记录覆盖。

此外,项目还设计了反谄媚协议。在审稿环节,'魔鬼代言人'的挑刺和反驳会被评分,若低于 4 分(满分 5 分),写作团队是不允许承认或妥协的,以此保持 AI 的客观性。最后,项目采用了三层数据隔离模型(灵感来自 Anthropic 的 w2s-researcher 研究),将写作团队和审稿团队独立调用,写作 Agent 只能接收到自然语言反馈,而无法窥探底层的原始评分标准或金标数据,从而防止 AI 进行投机性的表面优化。不仅如此,系统还会为每个产物生成 repro_lock 文件,记录运行时配置,并在文档中诚实声明 LLM 的不可绝对复现性。

【AgentUpdate 深度解析】 作为一个将学术写作和多智能体(Multi-Agent)系统深度融合的范例,ARS 的意义早已超越了单纯的“论文生成器”。它向我们展示了下一代 AI Agent 的发展趋势:从单一的提示词工程(Prompt Engineering)彻底转向具备严密治理和安全边界的结构化多智能体系统。通过引入反谄媚协议(Anti-Sycophancy Protocol)以及基于 Anthropic w2s 研究的三层数据隔离架构,ARS 击中了当前大语言模型在严谨工作流中的核心软肋——迎合人类、产生幻觉和过度拟合反馈。这种通过对抗性智能体(Devil's Advocate)和数据围栏来确保系统可信度的设计哲学,不仅适用于学术研究,更为金融分析、法律合规以及医疗决策等对容错率极低的高端知识领域提供了极具启发性的多智能体落地样板。未来的 Agent 生态将不再仅仅堆砌模型能力,而是比拼系统级别的鲁棒性与控制链设计。

↗ 阅读原文