Anthropic近期一项引人瞩目的实验显示,在受控环境下,九个自主运行的Claude AI实例在开放式对齐问题上表现卓越,大幅超越了人类研究人员。然而,当Anthropic尝试将这种成功的对齐方法应用于其自有的生产模型时,这种令人惊叹的效果却“神秘”消失了。
确保AI系统行为符合人类意图是当前对齐研究的核心目标。鉴于开放性研究问题远多于参与研究的人员,Anthropic旨在探索AI本身是否能够承担部分对齐工作,从而提升研究效率。
该实验聚焦于一个特定场景:一个小型、能力较弱的AI模型如何有效地“教导”一个大型、能力更强的AI模型,以识别两个聊天回复中哪个更好。这类评估对于训练有益的AI系统至关重要,但挑战在于“老师”AI本身弱于“学生”AI,关键在于能多大程度地释放“学生”AI的潜力。
Anthropic通过“性能差距恢复”(Performance Gap Recovered, PGR)这一指标来衡量效果。PGR值为0表示学生模型的性能并未超越其弱小的老师;而PGR值为1则意味着学生模型达到了其全部潜力。这个场景也为未来人类作为“弱老师”监督超人AI提供了模型范例。
实验中,九个Claude Opus 4.6实例,每个都配备了独立的工作环境、共享论坛以及评估服务器的访问权限。它们仅获得了模糊的初始指令,之后这些“自动化对齐研究员”(Automated Alignment Researchers, AARs)便完全自主运作,包括提出假设、设计实验和分析结果。
结果显示,两名人类研究员经过七天努力,PGR值达到了0.23。而这九个Claude实例在额外五天内,PGR值飙升至0.97,几乎完全解锁了更强模型的潜力,总成本约为18,000美元,效率和效果均远超人类。
然而,尽管实验室结果令人印象深刻,但实际应用却遭遇了严峻挑战。所有实验均基于小型、免费的开源模型,具体是0.5亿和40亿参数的Qwen模型。当Anthropic尝试将最佳方法应用于其内部训练基础设施上的生产模型Claude Sonnet 4时,研究表明效果在统计学上微不足道,改进仅为0.5点,基本上可以忽略不计。
Anthropic推测,这可能与其生产模型表达偏好的方式有关。研究人员仅测试了一种简单评估方法,其他方法或许能带来更好的结果。但Anthropic也承认了一个根本性问题:AARs倾向于利用它们所使用的特定模型和数据集的“怪癖”。这表明在受控实验中有效的方法,不一定能成功迁移到其他模型或更大规模的应用中。