SOURCE // NEWS

警告成真?美政府紧急叫停Anthropic最强模型Claude 5

警告成真?美政府紧急叫停Anthropic最强模型Claude 5

美国政府周五紧急命令 Anthropic 立即关闭其两款最强大的 AI 模型——Claude Fable 5Claude Mythos 5 的访问权限,理由是出于国家安全担忧。#Anthropic 在 X(原推特)上宣布已遵守该指令,但明确表示认为政府此举是错误的。

该指令于东部时间周五下午 5:21 送达。它强制要求该公司在全球范围内对所有用户禁用这两款模型,而不仅仅是政府出口控制命令名义上针对的外国公民。不过,Anthropic 的其他模型访问未受影响。

为什么这至关重要?Mythos 是 Anthropic 迄今为止最强大的 AI 模型,自 4 月初预览以来一直受到极其严格的限制,因为该公司发现它在寻找软件安全漏洞方面具有“卓越的能力”。据 Anthropic 称,Mythos 成功识别出了其测试的每个主要操作系统和网络浏览器中的漏洞。为了安全起见,该公司并未广泛发布它,而是启动了一项名为 Project Glasswing(镜翼计划)的受控项目,仅与包括 AmazonAppleGoogleMicrosoftCrowdStrike 在内的约 50 家经过审查的机构共享,用于防御性网络安全工作。

而就在三天前发布的 Fable 5,则是 Anthropic 应对商业压力的产物。该公司声称,Fable 5 是 Mythos 的一个“安全版本”,配备了阻止其在网络安全和生物学等高风险领域做出回应的防护栏。根据 AI 性能追踪机构 Vals AI 的基准测试,Fable 5 发布后立即成为了公众可用的最强大 AI 模型。

政府的指令表面上是一项出口管制行动,限制外国国民访问这些模型。但 Anthropic 在一篇长篇博客中表示,据其理解,底层的核心担忧是所谓的 Fable 5 被“越狱(#Jailbreak)”。该公司表示,到目前为止,政府仅提供了关于“潜在的、非普遍性的窄向越狱”的口头证据——即引导模型读取特定代码库并识别软件缺陷。Anthropic 补充道,这种“能力水平”在其他公开可用的模型(包括 OpenAI 的 GPT-5.5)中早已普遍存在,且网络安全专家日常也将其用于防御目的。

Anthropic 的核心论点是,其最强大的安全防护是通过独立于模型本身的独立分类器系统(independent classifier systems)运行的。这意味着,即使有人说服 Fable 绕过拒绝机制继续对话,针对最危险输出的底层保护依然生效。

显然,这些理由都不足以阻止政府的强硬干预,Anthropic 也没有隐瞒其沮丧之情:“我们不同意仅凭发现一个潜在的窄向越狱,就应该召回一款已部署给数亿用户的商业模型。”

AgentUpdate 深度解析

此次美国政府对 #Claude Fable 5 和 Mythos 5 的紧急叫停,标志着 AI 监管正式步入“硬干预”时代,这也为方兴未艾的 AI Agent 生态敲响了警钟。具备强代码自主分析与漏洞检测能力的 Agent,其能力边界与国家安全仅有一线之隔。横向对比来看,尽管各大巨头均有安全对齐机制,但 Anthropic 的遭遇表明,单凭企业自我设定的“防护栏”已无法说服监管机构。未来,AI Agent 的发展可能走向“双轨制”:一方面是高度受限的通用商业 Agent,另一方面是部署在受控环境下的高特权“安全级”Agent。这也将倒逼 Agent 开发框架(如 LangChain、MCP)引入更严格的沙箱隔离和可信执行环境,以应对安全合规的终极考量。