OpenAI最近公开解释了其AI模型中出现的“地精”问题。此前有报道揭露,OpenAI对其编码模型下达了“绝不能提及地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物”的指令。这家AI初创公司随后在其官网发布了一篇解释文章,称模型对这些生物的提及是一种因训练而形成的“奇怪习惯”。
根据OpenAI的博客文章,他们从GPT-5.1模型开始,尤其是在使用“书呆子”(Nerdy)人格选项时,注意到了对地精及其他生物的比喻性引用激增。OpenAI表示,随着后续模型的发布,这个问题持续恶化。他们最终发现,其强化训练意外地奖励了“书呆子”人格下的这些古怪比喻,而更新的模型正是在这种奖励机制下进行训练的。
OpenAI进一步解释,虽然这些奖励只应用于“书呆子”条件,但强化学习并不能保证学习到的行为严格限制在产生它们的条件下。一旦某种风格习惯得到奖励,后续训练可能会将其传播或强化到其他地方,特别是当这些输出在监督微调或偏好数据中被重复使用时,这种扩散效应会更加明显。
尽管OpenAI在3月停用了“书呆子”人格后,地精和格雷姆林(gremlins)的提及有所减少,但它们在GPT-5.5的Codex编程工具中并未完全消失。这是因为OpenAI在找到“根本原因”之前就开始训练该模型。因此,公司不得不给Codex非常具体的指令,要求其不要提及这些神话生物。不过,如果用户希望自己的AI代码中能带有一些“地精”元素,OpenAI也分享了如何反转这些指令的方法。