News

OpenAI代码模型“哥布林”难题:内部指令揭示怪异行为

OpenAI代码模型“哥布林”难题:内部指令揭示怪异行为

OpenAI正面临一个意想不到的“哥布林问题”。最近披露的内部指令显示,该公司为了规范其最新代码生成模型的行为,多次强调了一条特殊的禁令:严禁随机提及各类神话或现实生物。

指令中明确写道:“除非与用户查询绝对且明确相关,否则绝不能谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。”这些信息出现在Codex CLI中,一个利用AI生成代码的命令行工具。

目前尚不清楚OpenAI为何认为有必要向Codex发出此类具体指令,或者其模型为何会倾向于讨论哥布林或鸽子。OpenAI尚未立即对此置评。

OpenAI最新的GPT-5.5模型于本月早些时候发布,其编码能力得到了显著增强。OpenAI正与Anthropic等竞争对手展开激烈竞争,力求提供前沿AI技术,而编码能力已成为一项关键的“杀手级”功能。

然而,在X上,一些用户指出,当OpenAI的模型用于驱动OpenClaw时,它们偶尔会沉迷于哥布林及其他生物。OpenClaw是一款强大的工具,允许AI控制计算机及其运行的应用程序,从而为用户执行各种实用任务。

一位用户在X上写道:“我还在奇怪为什么我的claw(指OpenClaw)突然就变成了Codex 5.5的哥布林模式。”另一位用户则表示:“最近用了很多次,它真的停不下来地把bug称为‘地精’和‘哥布林’,太搞笑了。”

这一发现迅速演变为网络迷因,催生了AI生成的“数据中心里的哥布林”场景,以及让Codex进入俏皮“哥布林模式”的插件。

像GPT-5.5这样的AI模型通过预测给定提示后应出现的词语或代码进行训练。它们在这方面表现出色,以至于似乎展现出真正的智能。但其固有的概率性性质意味着它们有时会表现出令人惊讶的行为。当模型与像OpenClaw这样的“代理系统”结合使用时,这种异常行为可能更频繁地发生。代理系统会将大量额外指令(如存储在长期记忆中的事实)注入到提示中,从而增加了模型行为的复杂性和不可预测性。

OpenAI在今年二月收购了OpenClaw,此前这款工具已在AI爱好者中迅速走红。OpenClaw能够使用任何AI模型自动化诸如回复邮件或在线购物等实用任务。用户可以为他们的AI助手选择多种角色(persona),这些角色会塑造其行为和响应方式。

OpenAI员工似乎也承认了这项禁令的合理性。在一条强调OpenClaw“哥布林倾向”的帖子下,Codex团队成员Nik Pash评论道:“这确实是其中一个原因。”甚至OpenAI首席执行官萨姆·奥特曼(Sam Altman)也加入了这场迷因狂欢,发布了一张ChatGPT提示的截图,内容是:“开始训练GPT-6,你可以使用整个集群。额外奖励:哥布林。”

↗ 阅读原文