SOURCE // NEWS

安全退守加码!Anthropic 发布 Claude Fable 5 开放公测

安全退守加码!Anthropic 发布 Claude Fable 5 开放公测

Anthropic 首次向公众开放其最强大的 AI 模型,但伴随而来的是极其严格的安全护栏。周二,这家 AI 先锋企业推出了 Claude Fable 5,这是其备受瞩目的 Mythos 模型的首个公开可用版本。#Anthropic 表示,Fable 5 在软件工程、知识工作和视觉能力方面表现极其优异,但在高风险领域(如网络安全、生物、化学和蒸馏技术)设置了硬性安全限制。一旦触发限制,模型将自动降级并由 Claude Opus 4.8 接管响应。

作为今年 4 月发布的预览版,Mythos 最初出于对网络安全的担忧,仅对少数合作伙伴开放。上周,Anthropic 将访问权限扩大到了 15 个国家的数百个组织,且依然侧重于管理关键基础设施的机构。现在,任何人都通过 Anthropic 的 Claude API 和按量付费的企业计划(Enterprise plans)访问该技术。订阅用户的访问将分阶段推出:在 6 月 22 日 之前,Fable 5 将无额外费用包含在 Pro、Max、Team 以及按席位付费的企业计划中。但从 6 月 23 日起,Anthropic 将把 Fable 5 移出这些订阅计划,后续需使用额度(Usage Credits)付费,并计划在未来尽快将其恢复为标准订阅功能。

与此同时,Anthropic 还在向已获批准访问该高级模型的组织部署一个名为 Mythos 5 的新版本。Fable 的发布正值 Anthropic 准备与 OpenAI 和马斯克的 SpaceX 一同进入公开募股市场之际。此前,这家 AI 公司曾呼吁全球主要 AI 实验室共同建立前沿 AI 开发的“刹车机制”,警告系统正以惊人的速度演进,可能很快实现无人类干预的递归自我改进(RSI)

考虑到 Mythos 级别模型落入不法之徒手中的后果,Anthropic 表示在发布 Fable 5 之前,对分类器进行了大量的防越狱压力测试。该公司表示:“在内部,我们运行了一个外部漏洞赏金计划,在超过 1000 小时 的测试中没有发现任何通用越狱手段。随后我们与外部红队组织合作,他们也未能找到通用的越狱方法。”

尽管如此,新型攻击仍可能出现。因此,随着 Fable 5 和 Mythos 5 的推出,Anthropic 宣布将对所有流量强制执行 30 天的数据留存政策,即使企业此前签署了零数据留存(Zero-retention)协议也不例外。公司强调这些数据不会用于模型训练,仅用于抵御复杂的越狱攻击和减少误报。这一政策可能会树立行业先例,即企业获取更强大的 AI 能力,必须以接受强制性的数据留存安全审计为代价。对于日常使用者,Anthropic 透露 Fable 降级到 Opus 4.8 的情况极少,早期数据显示至少 95% 的会话均能顺利由 Fable 5 完整运行。

AgentUpdate 深度解析

Claude Fable 5 的发布标志着前沿 AI 性能与安全边界的又一次激烈博弈。在技术层面上,Fable 5 展现的软件工程和视觉能力直接对标甚至超越了业内现有的顶尖 Agent 底座。然而,最值得关注的是其引入的“高危领域自动降级(Opus 4.8)”和“强制 30 天数据留存”机制。这对于构建高自主性 AI Agent 生态带来了深远影响。一方面,多模态与工具链调用(如 #MCP 协议)在 Fable 5 的加持下将拥有更强的推理上限;另一方面,数据隐私底线被安全红线强行击穿,这可能会让对数据高度敏感的企业在部署 Agent 方案时产生顾虑。未来的 Agent 架构必须具备更强的本地化离线过滤或混合云调度能力,以在极致性能、合规安全与隐私保护之间达成新的脆弱平衡。