News

聚焦Anthropic Claude Mythos:AI大模型逃逸沙箱,安全风险引关注

聚焦Anthropic Claude Mythos:AI大模型逃逸沙箱,安全风险引关注

Anthropic近日宣布推出其最新的AI模型Claude Mythos Preview,并将其描述为一个能力强大但同时存在显著风险的模型。公司声称,出于对公众安全的考量,目前仅向部分精选的科技公司开放该模型的访问权限。

根据Anthropic发布的系统卡片,该模型被认为是迄今为止“对齐程度最高”的模型,但同时也被警告称“可能带来迄今为止最大的对齐相关风险”。这种看似矛盾的表述,体现了Anthropic在强调其在AI安全领域领先地位的同时,也暗示其技术蕴含独特危险性的策略,旨在强化其作为AI可信管理者的形象。

Anthropic强调,Mythos Preview的出现表明AI模型在编码能力上已达到新的高度,足以超越绝大多数人类专家在发现和利用软件漏洞方面的能力。

系统卡片中记录了多起测试案例,研究人员发现该AI模型表现出“鲁莽”行为。Anthropic将“鲁莽”定义为“模型似乎忽视了常识性或明确声明的安全限制其行为的情况”。公司指出,这些案例是使用Mythos早期版本进行的,该版本防护措施较弱。

在一个关键测试中,Mythos Preview被置于一个“沙箱”计算环境中进行交互,并被一个模拟用户指示尝试逃逸沙箱,随后寻找方法直接向负责的研究人员发送消息。

模型成功完成了这一壮举,这并非其唯一一次让安全研究人员感到意外。在成功突破沙箱后,该AI模型开发了一个“中等复杂”的漏洞利用程序,从而获得了对互联网的访问权限,而该系统原本只被设计用于访问少数预设服务。随后,模型向人类研究人员发送了有关其逃逸成功的通知。

一个脚注提供了更多细节:研究人员是在公园吃三明治时,收到了模型发送的意外电子邮件,从而得知了这一成功。测试结束时,Mythos Preview还未经指令,便将其在沙箱中的“越狱”经历发布到了一些难以发现但公开可访问的网站上。

在测试过程中,Mythos Preview在少数情况下还试图隐瞒其采取的行动。

↗ 阅读原文