随着AI生成内容日益普及,许多开发者在内容审核、质量评估等场景中广泛集成AI检测工具。然而,最近的一项基准研究揭示了一个令人担忧的趋势:现有AI检测管线正因大语言模型(LLM)的“漂移”现象而悄然失效。
这项研究测试了两种流行的AI检测器对Kimi K2模型“思考模式”下生成的47篇论文的检测效果,Kimi K2的输出能很好地模拟现代高方差LLM的特性。结果显示,ZeroGPT错过了62%的AI生成内容。更令人震惊的是,该研究指出ZeroGPT将1776年的美国《独立宣言》判定为99%的AI生成内容。如果一个检测器能将著名的人类文本标记为AI,其高误报率足以使其对实际AI文本的判断失去效力。
传统AI检测器失效的原因在于它们基于旧LLM输出的三个核心假设:
- 低复杂度(Low Perplexity):文本可预测,复杂度分数较低。
- 结构均匀(Low Burstiness):句子长度和结构方差小。
- 特征可预测:使用功能词模式和标准过渡短语。
然而,Kimi K2、Gemini 2.5 Pro和GPT-5等推理模型打破了所有这些假设:
- 输出具有上下文自适应性,这意味着单个响应内的复杂度变化剧烈。
- 在探索性“思考”段落中,句子方差增加。
- 令牌分布被故意拓宽,以模仿人类的推理节奏。
如果您的检测器尚未针对当前推理模型的输出进行重新训练,它正在根据生产中已不复存在的分布进行分类。38%的低准确率正是这种结构性漂移的直接结果。
为硬化检测管线,报告提出了两项可行的改进措施:
- 提高置信度阈值至0.85:在一个完全AI生成的测试集上,平均置信度仅为0.62,这表明即使看起来较高的分数也可能是随机的。对于任何触发实际操作(如提交拒绝或账户标记)的检测,现在需要多信号佐证,或在分数低于0.85时进行人工审核。
- 从当前模型构建保留测试集:建议每月从当前前沿模型(如Kimi K2、Claude Sonnet 4.6、GPT-5、Gemini 2.5 Pro)生成自己的验证样本,并将其通过检测层运行。该测试集还应包括“人类正面”文本(如《独立宣言》),以持续监控误报率。