AI巨头 Anthropic 宣布,已停用本周早些时候发布的两个尖端 AI 模型:Claude Fable 5 和 Mythos 5。此举是为了遵守美国政府周五下午发出的出口管制指令,该指令以“国家安全担忧”为由要求其停用相关模型。
这一史无前例的事件标志着 #Anthropic 与特朗普政府之间矛盾的再次升级。尽管该法令要求限制“任何外国国民,无论在美国境内外,包括外籍 Anthropic 员工”访问,但为了确保绝对合规,Anthropic 索性对所有客户关闭了这两个模型的访问权限。此前,美国国防部曾将 Anthropic 列为“供应链风险”,起因是该公司试图在美军如何使用其技术上划定红线。
Claude Fable 5 是 Mythos 模型的安全限制版,特别设计了防止回答关于网络安全、生物和化学等敏感问题的安全护栏。此前,该公司曾于4月限量推出了 Mythos Preview。Anthropic 表示,发布该系列模型本意是与美国政府合作,帮助企业利用其强大的网络安全能力防御潜在威胁,防止黑客工具的滥用。
针对突如其来的禁令,Anthropic 透露,美国政府在信中并未提供具体的国家安全细节。据推测,政府认为发现了一种可以“越狱”(jailbreaking)Fable 5 的方法。但 Anthropic 团队评估后认为,该“越狱”手段非常局限,仅能被利用来发现少数已知的轻微漏洞,而且其他开源或市面已有的模型同样能做到这一点。
此次 #Claude Fable 5 遭遇美政府强行下架,是 AI 历史上首例因“越狱风险”引发的国家级干预,标志着 AI 安全治理与地缘政治正以前所未有的深度交织。从技术角度看,Fable 5 本是专为防御性网络安全设计的强 Agent 基础模型。政府对其“越狱”后可能被反向用于漏洞挖掘的担忧,折射出大模型在双用途场景下的监管困境。随着 AI Agent 在网络空间、工业控制等高风险领域的自主性不断增强,未来对 Agent 核心大脑的审计将不再局限于软件工程安全,而是上升到国家主权高度。这一事件可能迫使整个 Agent 生态(包括开发框架与上层应用)在构建自主代理时,必须将多层硬编码安全沙箱与行为监控置于更优先的位置,从而牺牲部分端到端泛化能力,以换取合规生存空间。