近日,AMD开源AI软件开发工程师Stella Laurenzo发布一份详尽报告,揭示了Claude Code自2026年2月更新后性能大幅退化的问题。该报告指出,模型“思考深度”锐减67%,已无法胜任复杂的工程任务,引发了社区热议。
报告通过分析~/.claude/projects/目录下四个项目(iree-loom、iree-amdgpu、iree-remoting、bureau)的6852个Claude Code会话JSONL文件,涵盖17871个思考块、234760次工具调用及18000多条用户提示词,时间跨度从2026年1月底至4月初。测试全程采用Claude性能最强的Opus模型,并通过Anthropic官方API直连,确保数据准确性。
关键发现是,Claude Code的思考深度从1月30日至2月8日的约2200字符暴跌至2月下旬的720字符,降幅高达67%;3月上旬更是进一步缩水至560字符,下降75%。这一能力退化时间线与2月份上线的新功能redact-thinking-2026-02-12(思考内容隐藏功能)完全吻合。有用户在3月8日就已反馈质量问题,彼时隐藏思考块的占比恰好突破50%。
思考深度的急剧削减导致模型工具使用模式发生根本性转变。在1月30日至2月12日的“优质期”,Claude Code遵循“先研究再修改”的严谨模式,读改比高达6.6(即每修改1次代码前会读取6.6次文件)。模型会先读取目标文件、相关依赖,检索全局调用关系,查阅头文件与测试用例,再进行精准修改。然而,到3月8日后的“退化期”,读改比骤降至2.0,模型研究投入减少70%,跳过前期调研,仅读取当前文件就仓促修改,完全忽略上下文关联。退化期内,每3次修改中就有1次是在未读取目标文件上下文的情况下直接进行,导致模型无法区分注释与代码,甚至将新声明插入文档注释和函数之间,破坏语义。
这种模式转变带来了多方面负面影响。此前从未触发过的用于识别推诿责任、提前终止等不良行为的“终止钩子脚本”,在3月8日后的17天内触发了173次。用户提示词中的负面情绪占比从5.8%升至9.8%,需纠正的推诿行为数量翻倍,单会话平均提示词数量下降22%,并出现了此前从未有过的推理循环问题,即模型在输出前无法自行解决内部矛盾,直接暴露在输出中,表现为反复自我修正。
推理循环率翻了3倍多,最严重会话中模型单次响应出现20次以上推理反转,输出结果完全不可信。用户中断率从优质期到后期飙升了12倍,表明用户需更多地介入纠错。模型甚至会主动承认输出质量不佳,如“你说得对,这太敷衍了”,这本应在内部推理阶段就被拦截修正。
另外,模型输出中频繁出现“Simplest Fix”这一短语,表明它正在为了最小化工作量而优化,本能地选择推理成本最低的路径,而非评估最优解决方案。模型的代码修改精准度也大幅下滑,全量新建文件占修改操作的比例从优质期的4.9%翻倍至退化期的10-11.1%,模型越来越依赖重写整个文件,而非精准调整,丢失了对项目专属规范的理解和上下文感知能力。
报告还针对社区关于Claude Code质量随时间段波动的反馈进行了分析。在思考内容隐藏前(1月30日-3月7日),思考深度全天相对稳定。但在3月8日-4月1日思考内容隐藏后,时段模式彻底反转,波动加剧。与假设相反,非高峰时段的整体思考深度反而更低,其中太平洋时间17:00和19:00是表现最差的时段,估算思考深度分别降至423字符和373字符。