当前,几乎所有AI记忆系统的评测得分都未能准确衡量其宣称的能力。现有基准存在严重缺陷,导致难以对不同系统进行公正评估。
例如,我们对LoCoMo基准进行了审计,发现其答案键中6.4%的内容存在事实性错误(1540个问题中有99个错误)。更糟糕的是,LLM评判器接受了63%的故意错误答案,并且56%的按类别系统比较在统计学上无法与噪声区分开来。
另一个例子是LongMemEval-S,它每个问题使用约11.5万个tokens。这意味着目前所有前沿模型都能将这些信息完全加载到上下文窗口中。因此,它更多地是对上下文窗口能力的测试,而非真正意义上的记忆能力测试。
此外,各系统在数据摄取、答案生成提示,甚至评判器配置上都采用各自的方法,却将分数发布在同一张表格中,仿佛它们遵循共同的方法论。Mem0/Zep之间的基准争议完美地说明了这一点:两家公司测试相同的系统,却得出了截然不同的结果,凸显了缺乏标准化方法论的严重问题。
为了解决这些痛点并建立一个真正能衡量AI长程记忆能力的评测基准,我们提出了一套新的设计原则:
1. 语料库必须超出上下文窗口: 总上下文量应达到100万至200万tokens。这规模足以要求系统进行真正的记忆检索,同时又足够小,便于独立研究人员经济高效地进行实验。
2. 语料库必须模拟真实Agent使用场景: 内容应为一个人与AI助手之间持续约6个月的多会话对话。这应涵盖工作项目、个人偏好、纠正信息和不断演变的事实,而非陌生人之间互不相关的闲聊。
3. 摄取方式是系统问题,但必须公开: 各系统可以自由选择摄取数据的方式,但必须公开其摄取方法、使用的模型、嵌入模型、总成本和总时间。
4. 答案生成:标准化或完全公开: “标准赛道”应使用规定的模型和提示,单次生成答案,唯一变量是记忆检索的内容,确保“苹果对苹果”的公平比较。“开放赛道”则允许使用任何方法,但需完全公开细节,且结果必须与标准赛道得分分开报告,绝不能混淆。
5. 各类别统计效力均等: 每个类别应包含400个问题。LoCoMo最小类别仅有96个问题,其威尔逊分数误差范围过大,导致分数差异如同噪音。
6. 人工验证的真实答案(Ground Truth): 错误率目标小于1%。通过模型委员会预筛、众包审查(提供奖励)和专家裁决,确保答案的准确性。
7. 经对抗性验证的评判器: 在基准发布前,生成故意错误的答案。评判器必须拒绝95%以上的错误答案。杜绝无法区分模糊的、主题相关但错误的答案和正确答案的评判器。
8. 弃权得分机制: 当答案在语料库中但系统选择“我不知道”时,得分0.10。自信地给出错误答案则得分为0.0。一个了解自身局限性的系统,应优于那些胡乱“幻觉”的系统。
9. 多维度评分: 仅凭准确率会掩盖许多有趣的信息。评分卡应包括:准确率(标准赛道+开放赛道)、检索精度(每个问题检索到的tokens数量)和延迟(P50/P90)。