LLM“漂移”：AI内容检测为何悄然失效？Kimi K2基准揭示

随着AI生成内容日益普及，许多开发者在内容审核、质量评估等场景中广泛集成AI检测工具。然而，最近的一项基准研究揭示了一个令人担忧的趋势：现有AI检测管线正因大语言模型（LLM）的“漂移”现象而悄然失效。

这项研究测试了两种流行的AI检测器对Kimi K2模型“思考模式”下生成的47篇论文的检测效果，Kimi K2的输出能很好地模拟现代高方差LLM的特性。结果显示，ZeroGPT错过了62%的AI生成内容。更令人震惊的是，该研究指出ZeroGPT将1776年的美国《独立宣言》判定为99%的AI生成内容。如果一个检测器能将著名的人类文本标记为AI，其高误报率足以使其对实际AI文本的判断失去效力。

传统AI检测器失效的原因在于它们基于旧LLM输出的三个核心假设：

低复杂度（Low Perplexity）：文本可预测，复杂度分数较低。
结构均匀（Low Burstiness）：句子长度和结构方差小。
特征可预测：使用功能词模式和标准过渡短语。

然而，Kimi K2、Gemini 2.5 Pro和GPT-5等推理模型打破了所有这些假设：

输出具有上下文自适应性，这意味着单个响应内的复杂度变化剧烈。
在探索性“思考”段落中，句子方差增加。
令牌分布被故意拓宽，以模仿人类的推理节奏。

如果您的检测器尚未针对当前推理模型的输出进行重新训练，它正在根据生产中已不复存在的分布进行分类。38%的低准确率正是这种结构性漂移的直接结果。

为硬化检测管线，报告提出了两项可行的改进措施：

提高置信度阈值至0.85：在一个完全AI生成的测试集上，平均置信度仅为0.62，这表明即使看起来较高的分数也可能是随机的。对于任何触发实际操作（如提交拒绝或账户标记）的检测，现在需要多信号佐证，或在分数低于0.85时进行人工审核。
从当前模型构建保留测试集：建议每月从当前前沿模型（如Kimi K2、Claude Sonnet 4.6、GPT-5、Gemini 2.5 Pro）生成自己的验证样本，并将其通过检测层运行。该测试集还应包括“人类正面”文本（如《独立宣言》），以持续监控误报率。