近日,Anthropic公司被曝出在未通知高级订阅用户的情况下,悄然调整了其AI模型Claude的推理能力,导致部分高价值用户所获得的服务质量出现“静默降级”。一位每月支付200美元订阅Anthropic最高个人层级Max 20x的用户,详细披露了这一变动对其工作流程造成的负面影响。
据该用户介绍,他日常使用Claude Code(Anthropic的命令行工具)与AI Agent团队协同,构建高性能的.NET库,包括GPU计算转译器、WebRTC网络组件和机器学习推理引擎。在今年3月下旬之前,“High”一直是Claude Code中可用的最高“努力程度”设置,意味着模型将投入全部推理能力。然而,Anthropic却在未发送任何邮件、未在CLI工具中发布通知、也未告知现有订阅者其设置含义已改变的情况下,悄然引入了一个名为“Max”的新层级,并将其置于原先“High”之上。
这一“增加一个层级”的操作,实则意味着原先“High”设置的降级。当“High”是最高级别时,它代表着“使用全部推理能力”;而“Max”出现后,“High”的含义变成了“使用大量但受限的推理预算”。这意味着模型现在更倾向于采用统计学上可能正确的解决方案,而非进行彻底的逻辑追踪。对于撰写博客文章或React组件等相对简单的任务而言,这种差异可能微不足道。但对于那些涉及将C# IL转译为WebGPU着色器代码,或调试WebRTC信令中的竞争条件等复杂任务,这正是生成正确代码与看似正确但在运行时崩溃的代码之间的关键区别。
这一静默降级带来了显著的实际成本。在发现“Max”设置之前,该用户的团队在以为是最高努力模式的“High”设置下,生成并交付了大量代码。当最终切换到“Max”设置后,审计结果令人震惊:
- 在机器学习推理库的单次审计中,发现了24个生产级Bug,其中包括导致WebGPU崩溃的缓冲区别名问题、GPU缓冲区租赁未返回导致的内存泄漏,以及破坏共享硬件加速器的基于反射的Dispose方法。
- WebRTC信令部分需要完全重写。AI Agent忽视了用户明确提供的参考实现(其自身在其他存储库中可正常运行的代码),而是进行通用模式匹配,未能对架构进行深入推理。
- 团队花费了一周时间来调试那些AI本应在第一次尝试时就捕获的问题,例如竞争条件、传入P2P连接中缺失的BEP 10握手,以及由于Agent初始实现不完整而暴露出的MockLoopback测试基础设施Bug。
据用户反馈,“Max”设置成功捕获了所有这些问题,而“High”设置则因为“效率”(即采取了捷径)而遗漏了它们。
数据对比也印证了这一影响:
- 切换到“Max”后,测试套件的通过数量从471增加到498。
- WebRTC P2P从“故障(offer collision)”变为“工作正常(offers-with-announce)”。
- 线束扩展(Wire extensions)从“未经测试”变为“27个新测试全部通过”。
- BEP 46 ECDSA的测试从“有漏洞”变为“10个带有真实密码验证的测试”。
- 最关键的是,在发现“Max”之前生产环境中未发现(但已在交付中)的Bug数量为0,切换后一次审计就发现了24个。
对于付费高级订阅用户而言,他们支付的是AI的智能和高质量推理能力,而不仅仅是消息计数。此次事件引发了对Anthropic服务透明度以及其高级套餐价值的广泛关注。