News

Anthropic自曝Claude变“笨”真相:多项调整误操作致性能下降,现已修复

Anthropic自曝Claude变“笨”真相:多项调整误操作致性能下降,现已修复

近一个月来,不少Claude用户抱怨其AI服务输出质量下降,Anthropic现已证实这并非错觉。

Anthropic周四发布了公司内部调查结果,指出在三月和四月期间,三项不同的内部调整确实对使用Claude Code、Claude Agent SDK和Claude Cowork的客户体验造成了负面影响。不过,该公司表示,Claude的API服务并未受到波及。

在此期间,Claude的用户对模型输出质量的抱怨不绝于耳,服务可用性问题更是雪上加霜,使得用户体验大打折扣。

Anthropic坚称,公司并非有意降低模型性能。相反,一系列旨在优化模型的调整操作出现了失误,从而造成了AI能力逐渐下降的观感。

首先,3月4日,Anthropic将Claude Code的默认推理“努力程度”(reasoning effort level)从“高”调整为“中”。“努力程度”控制着模型在特定推理任务上投入的计算量。Anthropic原本希望通过此举减少长时间思考带来的延迟。

公司承认:“这是一个错误的权衡。”在用户反馈更倾向于默认高智能、只在简单任务中选择低努力度后,公司于4月7日撤销了这项调整。

据推测,降低Opus 4.6和Sonnet 4.6的默认努力程度,本意是为了减轻推理负担——让模型“思考”更少,消耗更少token,从而更有效地利用有限的计算资源。

目前,最新版本的Claude Code (v2.1.118) 在Sonnet 4.6上已默认设置为“极高”(xhigh)努力程度。

其次,Anthropic的第二个失误是3月26日引入的一个bug。当时,一项缓存优化调整意外导致在每个提示-响应周期(turn)中都清除了缓存的会话数据。

Claude通常会缓存输入token一小时,这有助于加速并降低后续API调用的成本。工程师们原本打算清除闲置一小时用户的输出token(思考会话),因为长时间闲置后这些缓存将不再被使用。

Anthropic此举的初衷是希望通过清除不再相关的旧思考痕迹,来降低恢复会话的成本。然而,工程师们却意外引入了一个bug,导致模型在每个回合都会清除思考会话。结果是,Claude变得“健忘且重复”。该问题已于4月10日针对Sonnet 4.6和Opus 4.6修复。

第三,4月16日,Anthropic调整了其系统提示词(system prompt)及其他措施,旨在让Claude模型减少冗余输出。这项新增的系统提示词内容看似无害,并且经过数周的内部测试,模型质量评估也曾显示这项改动是安全的。然而,在实际部署后,它同样对模型表现产生了负面影响。

↗ 阅读原文