Anthropic 近日针对其上月启动的“Glasswing 项目”(Project Glasswing)发布了最新安全公告。该项目是一项旨在保护关键软件免受恶意 AI 模型攻击的防御性 AI 倡议。
据悉,Anthropic 在推出 Glasswing 项目前不久,刚刚研发出了强大的新一代模型“Claude Mythos”。该模型在检测和挖掘代码安全漏洞方面表现出极其惊人的能力。由于担心 Mythos 被不法分子滥用并沦为攻击武器,Anthropic 最终决定不向公众开放该模型,以规避潜在的双重用途(dual-use)安全风险。
作为替代方案,Anthropic 选择定向将 Claude Mythos 授权给约 50 家核心合作伙伴,其中包括科技与网络安全领域的头部巨头,如亚马逊 AWS、苹果(Apple)、谷歌(Google)、微软(Microsoft)、CrowdStrike、英伟达(Nvidia)、博通(Broadcom)、思科(Cisco)以及派拓网络(Palo Alto Networks)等。目前,Anthropic 基于 Mythos 的早期测试提炼出了一些关键结论,并展现了其在漏洞检测方面的显著成效。
【AgentUpdate 深度解析】随着 AI Agent(智能体)逐渐拥有自主编写、修改并部署代码的能力,软件安全生态正面临前所未有的双向变革。Claude Mythos 这种具备极强漏洞挖掘能力的“双刃剑”模型,展示了自主化 Agent 时代的安全焦虑:同一个模型既可以作为极致的“盾”(如 Glasswing 项目),也可能瞬间退化为无孔不入的“矛”。横向对比目前主流的静态代码分析工具(如 Snyk、GitHub Copilot Autofix),Mythos 类模型不仅停留在语法和已知模式匹配层面,更能理解深层业务逻辑和上下文,预测多步调用链路下的组合漏洞。对于 AI Agent 生态而言,未来“Agent 护栏”(Agent Guardrails)将从规则过滤转向“主动对抗防御”。Anthropic 选择定向开放的策略,预示着高阶安全 Agent 模型将走向联盟化和强监管模式。如何在保障开源活跃度的同时防止恶意 Agent 自动化发起零日漏洞攻击,将是未来智能体协同防御网络的核心课题。