OpenAI 近日宣布推出一项名为“锁定模式”(Lockdown Mode)的新安全功能,旨在为防范提示词注入攻击(Prompt Injection)提供更高级别的保护。这种攻击通常通过在网页或其他内容源中隐藏恶意指令来误导聊天机器人。
开启“锁定模式”后,系统将停用多项高风险功能。具体而言,它将禁用实时网页浏览(用户仅能访问缓存内容)、来自网页的图片检索与显示(但仍支持图片生成)、深度研究(Deep Research)以及智能体模式(Agent Mode)。
尽管该模式提供了强力防护,但 OpenAI 坦言,ChatGPT 仍无法百分之百免疫提示词注入。例如,如果恶意指令存在于缓存的网页内容或用户主动上传的文件中,仍可能影响系统响应的行为或准确性。然而,该功能的核心目标是最大程度降低敏感数据在交互过程中被窃取并外泄的概率。
OpenAI 强调,“锁定模式”并非适用于所有用户,而是专门为处理高敏感数据、且对提示词注入导致的数据外泄风险有极高安全防范需求的企业和个人用户而设计。目前,该功能正逐步向自服务式的 ChatGPT Business 账户以及符合条件的个人账户进行推送。
OpenAI 推出“锁定模式”并主动阉割“智能体模式”(Agent Mode)等核心能力,折射出当前大模型安全架构的切肤之痛。在 AI Agent 朝着自主规划、多工具调用纵深发展的当下,提示词注入已从“恶作剧”升级为“安全死穴”。当 Agent 拥有读写权限和外部网络访问权时,恶意指令极易通过第三方网页或文档污染上下文,进而控制 Agent 实施数据窃取。OpenAI 选择通过“功能降级”来换取“数据安全”,反映出目前业界在防御间接提示词注入上仍缺乏完美的运行时(Runtime)安全沙箱机制。这也向所有 Agent 开发者敲响了警钟:在构建企业级 Agent 生态时,必须在自主性与受控边界之间建立多层防御纵深,纯靠大模型自身的对齐(Alignment)来防御注入攻击是远远不够的。