⚡ News

谷歌GE2多语言嵌入模型RAG性能夺魁,开源模型速度更优

谷歌GE2多语言嵌入模型RAG性能夺魁,开源模型速度更优

一项最新基准测试对谷歌Embeddings (GE2) 进行了深入评估。GE2是一款基于Vertex AI的双编码器模型,拥有2048个token的上下文窗口和明确的任务类型条件。该测试将其与五款主流开源模型——BGE-M3、E5-large、Multilingual-E5-large (mE5-L)、LaBSE和Paraphrase-Multilingual-MPNet (mMPNet)——进行了对比。

评估范围广泛,涵盖了四个BEIR数据集子集、一个合成的意大利语RAG语料库、一项涵盖五种token大小和三种策略的分块消融实验,以及在商用CPU硬件上的单查询延迟测试。

结果显示,GE2在所有测试任务中均名列第一,在BEIR数据集上取得了0.638的平均nDCG@10,在IT-RAG-Bench上则达到0.282的nDCG@10。然而,其231.6毫秒的中位数延迟,大约是最快本地模型的14倍,显示出其在速度上的劣势。

对于要求低于100毫秒延迟(SLA)的场景,mE5-L展现出强大竞争力。在意大利语任务上,mE5-L的nDCG与GE2仅相差0.003,而延迟仅为31毫秒,使其成为平衡性能与速度的优选方案。

值得注意的是LaBSE,尽管其在多语言部署中广泛使用,但在BEIR数据集上的平均nDCG@10仅为0.188,低于包括mMPNet在内的所有专用检索模型。分块实验表明,所有六个模型在32 token分块时性能趋于饱和,而语义分块仅在16 token分块时提供了可测量的性能增益。

↗ 阅读原文