在一项针对多语言稠密检索与检索增强生成(RAG)系统的最新基准测试中,研究人员将托管于 Vertex AI、支持 2,048-token 上下文并具备显式任务类型调节功能的谷歌 Google Embeddings 2(简称 GE2)双编码器,与五款主流开源模型进行了深度横向评测。这五款开源模型包括:BGE-M3、E5-large、Multilingual-E5-large(mE5-L)、LaBSE 以及 Paraphrase-Multilingual-MPNet(mMPNet)。
本次评估覆盖了四个 BEIR 基准子集、一个合成的意大利语 RAG 语料库(IT-RAG-Bench),并针对 5 种不同 Token 大小和 3 种分块策略进行了分块消融实验。同时,研究人员还在常规 CPU 硬件上测试了各模型的单次查询延迟。结果显示,GE2 在所有评测任务中均斩获第一,其 BEIR 平均指标 nDCG@10 达到 0.638,在 IT-RAG-Bench 上的 nDCG@10 为 0.282。然而,卓越的精度伴随着高昂的计算延迟,GE2 的中位数延迟高达 231.6 毫秒,比运行在本地的最快模型慢了约 14 倍。
值得注意的是,开源模型 Multilingual-E5-large(mE5-L)表现极其强劲。在意大利语测试中,mE5-L 的 nDCG 评分与 GE2 的差距仅在 0.003 以内,但其延迟仅为 31 毫秒。这使得 mE5-L 成为对 100 毫秒以内服务等级协议(SLA)有严格要求的实时系统的首选。相比之下,被广泛部署的多语言模型 LaBSE 表现令人大跌眼镜,其在 BEIR 上的平均 nDCG@10 仅为 0.188,甚至低于专门的检索模型 mMPNet。
在分块消融实验中,研究人员发现了一个颠覆传统认知的现象:在当前测试语料库中,所有六款模型在分块大小达到 32 个 Token 时其性能便已趋于饱和。而备受推崇的语义分块策略(Semantic Chunking),仅在极小的 16 个 Token 分块尺寸下,才能带来可观测到的性能提升。
【AgentUpdate 深度解析】 向量嵌入(Embeddings)是 AI Agent 构建长期记忆与 RAG 的底层基石。谷歌 Embeddings 2 虽然在多语言检索精度上夺冠,但其高达 231ms 的延迟在需要多步决策、高频检索的反思型 Agent(如 ReAct 架构)中会成为致命的瓶颈。相比之下,开源模型如 mE5-L 以仅 31ms 的延迟和极小的精度损失,显著降低了 Agent 系统的闭环端到端延迟。此外,分块实验中 32-token 饱和的发现表明,未来的 Agent 记忆提取可能不需要冗长的大文本块,高密度的微型语义分块(Micro-chunking)配合快速本地向量模型,才是提升 Agent 实时感知与召回效率的最优解。这也警示开发者在构建 Agent 管道时,盲目追求云端大模型 API 并非良策,本地轻量化向量端侧部署正在成为主流。