Anthropic更新安全大模型动态：防范AI漏洞挖掘利器Mythos滥用

Anthropic 近日针对其上月启动的“Glasswing 项目”（Project Glasswing）发布了最新安全公告。该项目是一项旨在保护关键软件免受恶意 AI 模型攻击的防御性 AI 倡议。

据悉，Anthropic 在推出 Glasswing 项目前不久，刚刚研发出了强大的新一代模型“Claude Mythos”。该模型在检测和挖掘代码安全漏洞方面表现出极其惊人的能力。由于担心 Mythos 被不法分子滥用并沦为攻击武器，Anthropic 最终决定不向公众开放该模型，以规避潜在的双重用途（dual-use）安全风险。

作为替代方案，Anthropic 选择定向将 Claude Mythos 授权给约 50 家核心合作伙伴，其中包括科技与网络安全领域的头部巨头，如亚马逊 AWS、苹果（Apple）、谷歌（Google）、微软（Microsoft）、CrowdStrike、英伟达（Nvidia）、博通（Broadcom）、思科（Cisco）以及派拓网络（Palo Alto Networks）等。目前，Anthropic 基于 Mythos 的早期测试提炼出了一些关键结论，并展现了其在漏洞检测方面的显著成效。

【AgentUpdate 深度解析】随着 AI Agent（智能体）逐渐拥有自主编写、修改并部署代码的能力，软件安全生态正面临前所未有的双向变革。Claude Mythos 这种具备极强漏洞挖掘能力的“双刃剑”模型，展示了自主化 Agent 时代的安全焦虑：同一个模型既可以作为极致的“盾”（如 Glasswing 项目），也可能瞬间退化为无孔不入的“矛”。横向对比目前主流的静态代码分析工具（如 Snyk、GitHub Copilot Autofix），Mythos 类模型不仅停留在语法和已知模式匹配层面，更能理解深层业务逻辑和上下文，预测多步调用链路下的组合漏洞。对于 AI Agent 生态而言，未来“Agent 护栏”（Agent Guardrails）将从规则过滤转向“主动对抗防御”。Anthropic 选择定向开放的策略，预示着高阶安全 Agent 模型将走向联盟化和强监管模式。如何在保障开源活跃度的同时防止恶意 Agent 自动化发起零日漏洞攻击，将是未来智能体协同防御网络的核心课题。

Anthropic更新安全大模型动态：防范AI漏洞挖掘利器Mythos滥用

推荐阅读

梵蒂冈为何邀请 Anthropic 联合创始人解读教皇 AI 通谕？

苹果谷歌联合抨击加拿大新规：坚决反对警方数据权限扩张

DeepSeek研究员自研Agent写论文：人类仅花2小时，产出46页L1-L5综述

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Claude Skills Collection

Anthropic Agent Skills