Claude自写代码率超80%！Anthropic揭秘AI自我演进之路

在 Anthropic，已经有工程师整整五个月没有写过一行代码了。这并不是因为没有开发任务，而是因为 Claude 已经代劳了。根据 Anthropic 研究院周三发表的题为《当 AI 自自我构建》（When AI builds itself）的新论文，截至 2026年5月，合并进 Anthropic 生产代码库的代码中，已有超过 80% 是由 Claude 自动生成的。而在 2025年2月 Claude Code 刚发布时，这一比例还仅为个位数。然而，这家公司更希望外界关注其背后的核心命题：AI 设计并训练其“继任者”的自我迭代时代已悄然临近。

这种效率的跃升是极其震撼的。在 2026年第二季度，Anthropic 工程师每天合并的代码量是 2024 年的 8倍。一项针对 130 名研发人员的内部调查显示，在使用其最新的模型 Mythos Preview 时，员工的中位数产出估计达到了不使用 AI 时的四倍。在解决最复杂的开放式工程问题时，Claude 的解决成功率在 2026 年 5 月攀升至 76%，在短短半年内暴增了 50 个百分点。例如，在一次常规升级导致数万个训练任务崩溃的真实事件中，工程师仅向 Claude 提供了部分上下文和集群访问权限，AI 便在两小时内定位了隐蔽的调试标记、复现了故障并确认了修复方案，而这在以前通常需要人类排查两到三天。

不仅是数量，AI 生成代码的质量差距也在迅速抹平。研究人员指出，在 2025 年底，Claude 编写的代码质量还“略逊于”人类工程师，但如今已基本持平，并有望在年内实现超越。目前，一个基于 Claude 的自动化代码审查系统（Reviewer）会检查合并前的每一行代码。追溯性分析表明，该系统能提前拦截过去引发 claude.ai 线上故障的近三分之一的漏洞。

然而，编写代码仅仅是第一步，更核心的挑战在于 AI 是否能够自主进行科学研究。在 2026年4月，Anthropic 展示了 Claude 端到端运行开放式 AI 安全研究项目的能力。通过九个并行 Agent 的协同工作，它们自主提出假设、进行实验并在共享论坛中交流迭代。在累计消耗 800个小时和价值 18,000 美元的算力后，这些智能体成功弥补了该任务中 97% 的性能差距。相比之下，两名人类研究人员在工作一周后，仅能弥补 23% 的差距。

AgentUpdate 深度解析

Anthropic 的这份报告揭示了 AI Agent 正在从“辅助工具”演变为“自我进化体”的拐点。当 Claude 能够承载 80% 的自身代码开发并开始自主进行 AI 安全与模型优化研究时，**递归自我提升（Recursive Self-Improvement）**不再是科幻概念，而是正在发生的现实。横向对比 Cursor 或 Devin 等聚焦于应用层开发的 Agent，Claude 的原生代码闭环更强调底层架构的自我迭代，这极大缩短了 AGI 技术的演进周期。然而，这也对 AI 生态的治理和控制机制提出了史无前例的挑战。当 Agent 能够以人类数倍的速度编写和重构自身，如何建立一套去中心化、可验证的“熔断安全机制”，将成为未来多智能体协同框架中最为迫切的研究课题，它直接决定了 AGI 时代的控制权归属。