安全退守加码！Anthropic 发布 Claude Fable 5 开放公测

Anthropic 首次向公众开放其最强大的 AI 模型，但伴随而来的是极其严格的安全护栏。周二，这家 AI 先锋企业推出了 Claude Fable 5，这是其备受瞩目的 Mythos 模型的首个公开可用版本。#Anthropic 表示，Fable 5 在软件工程、知识工作和视觉能力方面表现极其优异，但在高风险领域（如网络安全、生物、化学和蒸馏技术）设置了硬性安全限制。一旦触发限制，模型将自动降级并由 Claude Opus 4.8 接管响应。

作为今年 4 月发布的预览版，Mythos 最初出于对网络安全的担忧，仅对少数合作伙伴开放。上周，Anthropic 将访问权限扩大到了 15 个国家的数百个组织，且依然侧重于管理关键基础设施的机构。现在，任何人都通过 Anthropic 的 Claude API 和按量付费的企业计划（Enterprise plans）访问该技术。订阅用户的访问将分阶段推出：在 6 月 22 日之前，Fable 5 将无额外费用包含在 Pro、Max、Team 以及按席位付费的企业计划中。但从 6 月 23 日起，Anthropic 将把 Fable 5 移出这些订阅计划，后续需使用额度（Usage Credits）付费，并计划在未来尽快将其恢复为标准订阅功能。

与此同时，Anthropic 还在向已获批准访问该高级模型的组织部署一个名为 Mythos 5 的新版本。Fable 的发布正值 Anthropic 准备与 OpenAI 和马斯克的 SpaceX 一同进入公开募股市场之际。此前，这家 AI 公司曾呼吁全球主要 AI 实验室共同建立前沿 AI 开发的“刹车机制”，警告系统正以惊人的速度演进，可能很快实现无人类干预的递归自我改进（RSI）。

考虑到 Mythos 级别模型落入不法之徒手中的后果，Anthropic 表示在发布 Fable 5 之前，对分类器进行了大量的防越狱压力测试。该公司表示：“在内部，我们运行了一个外部漏洞赏金计划，在超过 1000 小时的测试中没有发现任何通用越狱手段。随后我们与外部红队组织合作，他们也未能找到通用的越狱方法。”

尽管如此，新型攻击仍可能出现。因此，随着 Fable 5 和 Mythos 5 的推出，Anthropic 宣布将对所有流量强制执行 30 天的数据留存政策，即使企业此前签署了零数据留存（Zero-retention）协议也不例外。公司强调这些数据不会用于模型训练，仅用于抵御复杂的越狱攻击和减少误报。这一政策可能会树立行业先例，即企业获取更强大的 AI 能力，必须以接受强制性的数据留存安全审计为代价。对于日常使用者，Anthropic 透露 Fable 降级到 Opus 4.8 的情况极少，早期数据显示至少 95% 的会话均能顺利由 Fable 5 完整运行。

AgentUpdate 深度解析

Claude Fable 5 的发布标志着前沿 AI 性能与安全边界的又一次激烈博弈。在技术层面上，Fable 5 展现的软件工程和视觉能力直接对标甚至超越了业内现有的顶尖 Agent 底座。然而，最值得关注的是其引入的“高危领域自动降级（Opus 4.8）”和“强制 30 天数据留存”机制。这对于构建高自主性 AI Agent 生态带来了深远影响。一方面，多模态与工具链调用（如 #MCP 协议）在 Fable 5 的加持下将拥有更强的推理上限；另一方面，数据隐私底线被安全红线强行击穿，这可能会让对数据高度敏感的企业在部署 Agent 方案时产生顾虑。未来的 Agent 架构必须具备更强的本地化离线过滤或混合云调度能力，以在极致性能、合规安全与隐私保护之间达成新的脆弱平衡。

安全退守加码！Anthropic 发布 Claude Fable 5 开放公测

推荐阅读

Claude Mythos 5发布！1天迁移5000万行代码

Anthropic发布Fable 5模型；苹果详解第三代基础模型AFM3

字节AI制药开启拆分融资，AI4S步入产业化黄金期

相关工具与资源推荐

相关技能市场

Anthropic Agent Skills

Skill Atlas

Awesome Claude Skills