SOURCE // NEWS

Claude Mythos 5发布!1天迁移5000万行代码

Claude Mythos 5发布!1天迁移5000万行代码

Anthropic 正式推出了其有史以来最强悍的旗舰大模型双版本:Claude Fable 5Claude Mythos 5。其中,Fable 5 是面向公众开放的、配备安全防护网的版本,当触发风险分类器时,系统会自动降级调用上一代 Claude Opus 4.8;而 Mythos 5 则是无安全限制的满血版本,专为受信任用户提供,在网络安全攻防和生物科研领域具备顶尖能力。此外,新模型的 API定价 直接砍半,每百万输入 Token 仅需 10 美元,输出为 50 美元,大幅降低了开发者的使用门槛。

在备受瞩目的软件工程能力上,#Claude Fable 5 在 SWE-bench Pro 评测中狂飙至 80.3% 的超高分数,远超竞争对手 GPT-5.5 的 58.6%。在 Stripe 的实际测试中,Fable 5 仅用 1 天时间就完成了包含 5000 万行 Ruby 代码库的迁移工作,而这原本需要一个工程团队耗时两个多月。此外,在端到端前端开发基准 ViBench 上,Fable 5 几乎实现了单次生成应用的“一枪流(One-shot)”极值。

在原生视觉与游戏测试中,Fable 5 展示了惊人的自主推演能力。在专注于视觉文件推理的 GDPpdf 基准中,Fable 5 拿到了 29.8% 的成绩,领先于行业同类产品。在《宝可梦·火红版》游戏中,Fable 5 脱离了复杂的外部导航脚手架,仅凭游戏屏幕截图实现了纯原生视觉通关。而在卡牌肉鸽游戏《杀戮尖塔》中,配备了持久化文件级内存的 Fable 5,其通关概率和表现直接暴涨了 3 倍。

长上下文与记忆力是本代模型的升级核心。Fable 5 能够在百万级 Token 的长期任务中保持高度专注。#Anthropic 特别强调了 Token效率 的提升,这解决了自主 Agent化落地 中由于长时间自主运行而导致 Token 消耗过大的成本痛点。同时,在 Hebbia 金融基准测试中,新模型也首次突破了 90% 的逻辑推理大关,实现了跨越式增长。

AgentUpdate 深度解析

Claude Mythos 5 和 Fable 5 的推出,标志着大语言模型正式从“单轮问答”过渡到“长周期自主 Agent”阶段。通过将 SWE-bench Pro 提升至惊人的 80.3%,并引入原生视觉与持久化文件级内存,Anthropic 解决了 Agent 落地中最核心的“失忆”与“Token消耗失控”痛点。相比竞争对手 GPT-5.5 的通用路径,Anthropic 更加关注实际落地中的 Token 效率与长期任务稳定性。这种从底层架构优化的“记忆体机制”,将极大推动软件工程、金融分析等垂直领域自主 Agent 的商用化进程。未来,AI Agent 的竞争将不再仅拼参数规模,而是比拼在复杂环境下的多模态持续演进能力与综合性价比。