OpenAI模型诡异“地精”现象揭秘：强化学习的意外副作用

OpenAI最近公开解释了其AI模型中出现的“地精”问题。此前有报道揭露，OpenAI对其编码模型下达了“绝不能提及地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物”的指令。这家AI初创公司随后在其官网发布了一篇解释文章，称模型对这些生物的提及是一种因训练而形成的“奇怪习惯”。

根据OpenAI的博客文章，他们从GPT-5.1模型开始，尤其是在使用“书呆子”（Nerdy）人格选项时，注意到了对地精及其他生物的比喻性引用激增。OpenAI表示，随着后续模型的发布，这个问题持续恶化。他们最终发现，其强化训练意外地奖励了“书呆子”人格下的这些古怪比喻，而更新的模型正是在这种奖励机制下进行训练的。

OpenAI进一步解释，虽然这些奖励只应用于“书呆子”条件，但强化学习并不能保证学习到的行为严格限制在产生它们的条件下。一旦某种风格习惯得到奖励，后续训练可能会将其传播或强化到其他地方，特别是当这些输出在监督微调或偏好数据中被重复使用时，这种扩散效应会更加明显。

尽管OpenAI在3月停用了“书呆子”人格后，地精和格雷姆林（gremlins）的提及有所减少，但它们在GPT-5.5的Codex编程工具中并未完全消失。这是因为OpenAI在找到“根本原因”之前就开始训练该模型。因此，公司不得不给Codex非常具体的指令，要求其不要提及这些神话生物。不过，如果用户希望自己的AI代码中能带有一些“地精”元素，OpenAI也分享了如何反转这些指令的方法。

OpenAI模型诡异“地精”现象揭秘：强化学习的意外副作用

相关工具与资源推荐

相关技能市场

Agent Skills Catalog

推荐插件

Codex App Server Bridge

关联产品

CLIProxyAPI

openai-agents-python

UI UX Pro Max Skill