谷歌GE2多语言嵌入模型RAG性能夺魁，开源模型速度更优

一项最新基准测试对谷歌Embeddings (GE2) 进行了深入评估。GE2是一款基于Vertex AI的双编码器模型，拥有2048个token的上下文窗口和明确的任务类型条件。该测试将其与五款主流开源模型——BGE-M3、E5-large、Multilingual-E5-large (mE5-L)、LaBSE和Paraphrase-Multilingual-MPNet (mMPNet)——进行了对比。

评估范围广泛，涵盖了四个BEIR数据集子集、一个合成的意大利语RAG语料库、一项涵盖五种token大小和三种策略的分块消融实验，以及在商用CPU硬件上的单查询延迟测试。

结果显示，GE2在所有测试任务中均名列第一，在BEIR数据集上取得了0.638的平均nDCG@10，在IT-RAG-Bench上则达到0.282的nDCG@10。然而，其231.6毫秒的中位数延迟，大约是最快本地模型的14倍，显示出其在速度上的劣势。

对于要求低于100毫秒延迟（SLA）的场景，mE5-L展现出强大竞争力。在意大利语任务上，mE5-L的nDCG与GE2仅相差0.003，而延迟仅为31毫秒，使其成为平衡性能与速度的优选方案。

值得注意的是LaBSE，尽管其在多语言部署中广泛使用，但在BEIR数据集上的平均nDCG@10仅为0.188，低于包括mMPNet在内的所有专用检索模型。分块实验表明，所有六个模型在32 token分块时性能趋于饱和，而语义分块仅在16 token分块时提供了可测量的性能增益。

谷歌GE2多语言嵌入模型RAG性能夺魁，开源模型速度更优

推荐阅读

瞄准DeepSeek V4，Reasonix工具实现99.8%缓存命中率，大幅降低长会话成本

软银股价创历史新高，OpenAI上市预期助推AI热潮

谷歌Gmail邮件引入表情符号：提升沟通效率与人情味