一项题为“LLMs Can Get 'Brain Rot'”的开创性研究提出了“LLM大脑腐烂假说”,指出大语言模型(LLM)持续接触劣质网络文本会导致其认知能力持久性下降。这项研究通过对真实Twitter/X语料库进行受控实验,揭示了“垃圾数据”对LLM性能的负面影响。
研究团队设计了一种新颖的实验方法,通过两种正交操作化方法(M1:互动程度;M2:语义质量)构建了“垃圾”和“逆向对照”数据集,并在所有实验条件下匹配了token规模和训练操作。与对照组相比,对四种LLM在“垃圾数据集”上进行持续预训练,导致模型在推理、长上下文理解、安全性方面出现显著下降(Hedges' g 指数大于 0.3),甚至会增加模型的“阴暗特质”(例如,精神病态、自恋倾向)。
实验还观察到,随着垃圾数据比例从0%上升到100%,认知衰退呈现剂量效应。例如,在M1操作下,ARC-Challenge与思维链(Chain-of-Thought)的得分从72.1下降到57.2,RULER-CWE的得分从83.7下降到52.3。
误差分析揭示了几个关键见解。首先,研究人员发现“思维跳跃”(thought-skipping)是推理能力受损的主要原因:模型会越来越多地截断或跳过推理链条。其次,尽管进行指令微调和清洁数据的持续预训练可以改善模型下降的认知能力,但并不能完全恢复到基线水平,这表明问题在于持续的表征漂移,而不仅仅是格式不匹配。最后,研究发现,推文的受欢迎程度(一个非语义指标)在M1操作下比推文长度更能有效预测“大脑腐烂”效应。
总而言之,这些结果从多角度提供了重要证据,表明数据中的“社交效应”可能是LLM在持续预训练中能力衰退的因果驱动因素。这强烈呼吁业界和研究人员对已部署和不断演进的LLM进行例行的“认知健康检查”,以确保其长期性能和稳定性。