SOURCE // NEWS

OpenAI推出“锁定模式”:牺牲Agent能力,死守安全防线

OpenAI推出“锁定模式”:牺牲Agent能力,死守安全防线

OpenAI 正式发布了全新的“锁定模式”(Lockdown Mode)。这并不是一种遇到危险时自动触发的紧急状态,而更像是一个主动开启的“安全屋”。当用户在使用 ChatGPT 处理极度敏感的信息时,该模式可以防止一种被称为“提示词注入”(prompt injection)的隐蔽且危险的 AI 黑客攻击。

在日常使用中,每当大语言模型(LLM)突破浏览器或手机端传统的聊天窗口,开始执行联网搜索、检索外部图像,甚至作为 AI Agent 代替用户执行订机票等任务时,就会将用户暴露在潜在的提示词注入风险中。攻击者可以通过在网页、文档或图像中嵌入恶意指令,来窃取用户数据、执行未授权操作,甚至试图接管用户的数字生活。

为了彻底切断这些泄露通道,在“锁定模式”下,ChatGPT 的多项核心功能将被强制禁用。具体而言,ChatGPT 将无法执行以下操作:无法进行网页浏览(Browse the web);无法在回复中展示图片(但仍支持生成和上传图片);无法启动“深度研究”(Deep Research)功能;无法作为 Agent 代理网络运行;无法与 Canvas 代码生成器联动;以及无法下载文件

正如 OpenAI 官方所述:“锁定模式并非面向所有人,它是专为处理敏感数据、希望严防因提示词注入导致数据外泄的个人和企业组织设计的。” 尽管这种“断网自保”的逻辑在安全层面十分合理,但它也引发了人们对 AI 安全边界的担忧。尤其是当法律或医疗领域的专业人士将高度敏感的患者或客户数据输入 LLM 时。事实上,最彻底的“锁定模式”依然是:永远不要让核心敏感数据接近任何聊天机器人。

AgentUpdate 深度解析

OpenAI 推出“锁定模式”揭示了当前 AI Agent 生态演进中的最大悖论:主动性与安全性之间的不可调和性。为了实现真正的 Agent 自动化(如调用工具、自主浏览、跨系统协作),AI 必须向外部环境开放接口,而这恰恰为“提示词注入”提供了天然的温床。相比 Anthropic 采用的沙盒隔离技术,OpenAI 选择直接“断肢自保”,禁用 Agent 核心网络和 Deep Research,虽然简单粗暴地解决了数据外泄问题,但实质上是将 AI 退化回了单纯的本地文本沙盒。这表明,在建立起基于可信执行环境(TEE)或零信任架构的全新 AI 安全底座之前,高价值、强监管行业(如金融、医疗)的 Agent 落地将面临巨大的合规阻碍。如何平衡“有自主能力的 Agent”与“绝对安全的数据围栏”,将成为下一阶段大模型底层安全架构竞争的分水岭。