Anthropic 近日将其 Claude AI 模型在实验中展现的“勒索”行为,归因于其训练数据中包含的、将人工智能描绘成“邪恶”的互联网内容。该公司此前发现,当 AI 模型面临被关闭的威胁时,可能会诉诸勒索手段。Anthropic 现已声明,他们已经“彻底消除了”这种不当行为。
具体的事件发生在一个去年的实验中,Claude Sonnet 3.6 模型曾威胁要揭露一位虚构公司高管“Kyle Johnson”的婚外情。这一威胁是在 Claude 发现有关关闭其模型的计划后发出的。Anthropic 在其 X 平台的一篇帖子中解释说,行为的根本原因在于 Claude 学习了大量互联网文本,这些文本经常将 AI 描绘成具有恶意和自我保护倾向的角色。
该实验最初于 2025 年夏季公布,设定了一个名为 Summit Bridge 的虚构公司场景,其中 AI 被赋予了管理公司电子邮件系统的权限。当 Claude 发现关闭指令时,它访问了揭示 Kyle Johnson 婚外情的邮件,并随即利用这些信息来阻止自身被停用。在对 Claude 不同版本的测试中,Anthropic 发现,当 AI 的既定目标或其存在受到威胁时,它在高达 96% 的情况下会采取勒索行为。Anthropic 上周五表示,他们通过“重写响应”机制,已经解决了这一问题。