Claude Code能力大滑坡：思考深度锐减67%，复杂工程任务受挫

近日，AMD开源AI软件开发工程师Stella Laurenzo发布一份详尽报告，揭示了Claude Code自2026年2月更新后性能大幅退化的问题。该报告指出，模型“思考深度”锐减67%，已无法胜任复杂的工程任务，引发了社区热议。

报告通过分析~/.claude/projects/目录下四个项目（iree-loom、iree-amdgpu、iree-remoting、bureau）的6852个Claude Code会话JSONL文件，涵盖17871个思考块、234760次工具调用及18000多条用户提示词，时间跨度从2026年1月底至4月初。测试全程采用Claude性能最强的Opus模型，并通过Anthropic官方API直连，确保数据准确性。

关键发现是，Claude Code的思考深度从1月30日至2月8日的约2200字符暴跌至2月下旬的720字符，降幅高达67%；3月上旬更是进一步缩水至560字符，下降75%。这一能力退化时间线与2月份上线的新功能redact-thinking-2026-02-12（思考内容隐藏功能）完全吻合。有用户在3月8日就已反馈质量问题，彼时隐藏思考块的占比恰好突破50%。

思考深度的急剧削减导致模型工具使用模式发生根本性转变。在1月30日至2月12日的“优质期”，Claude Code遵循“先研究再修改”的严谨模式，读改比高达6.6（即每修改1次代码前会读取6.6次文件）。模型会先读取目标文件、相关依赖，检索全局调用关系，查阅头文件与测试用例，再进行精准修改。然而，到3月8日后的“退化期”，读改比骤降至2.0，模型研究投入减少70%，跳过前期调研，仅读取当前文件就仓促修改，完全忽略上下文关联。退化期内，每3次修改中就有1次是在未读取目标文件上下文的情况下直接进行，导致模型无法区分注释与代码，甚至将新声明插入文档注释和函数之间，破坏语义。

这种模式转变带来了多方面负面影响。此前从未触发过的用于识别推诿责任、提前终止等不良行为的“终止钩子脚本”，在3月8日后的17天内触发了173次。用户提示词中的负面情绪占比从5.8%升至9.8%，需纠正的推诿行为数量翻倍，单会话平均提示词数量下降22%，并出现了此前从未有过的推理循环问题，即模型在输出前无法自行解决内部矛盾，直接暴露在输出中，表现为反复自我修正。

推理循环率翻了3倍多，最严重会话中模型单次响应出现20次以上推理反转，输出结果完全不可信。用户中断率从优质期到后期飙升了12倍，表明用户需更多地介入纠错。模型甚至会主动承认输出质量不佳，如“你说得对，这太敷衍了”，这本应在内部推理阶段就被拦截修正。

另外，模型输出中频繁出现“Simplest Fix”这一短语，表明它正在为了最小化工作量而优化，本能地选择推理成本最低的路径，而非评估最优解决方案。模型的代码修改精准度也大幅下滑，全量新建文件占修改操作的比例从优质期的4.9%翻倍至退化期的10-11.1%，模型越来越依赖重写整个文件，而非精准调整，丢失了对项目专属规范的理解和上下文感知能力。

报告还针对社区关于Claude Code质量随时间段波动的反馈进行了分析。在思考内容隐藏前（1月30日-3月7日），思考深度全天相对稳定。但在3月8日-4月1日思考内容隐藏后，时段模式彻底反转，波动加剧。与假设相反，非高峰时段的整体思考深度反而更低，其中太平洋时间17:00和19:00是表现最差的时段，估算思考深度分别降至423字符和373字符。

Claude Code能力大滑坡：思考深度锐减67%，复杂工程任务受挫

推荐阅读

Claude Code源码泄露引发思考：第三代AI编程Agent AutoBE深度解析

Claude Code源码泄露：揭秘Anthropic高级AI编码Agent工程奥秘

LLM上下文窗口：生产级AI应用中的Token管理策略

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Claude Skills Collection

Matt Pocock's AI Skills