在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

2024年10月9日   |   by mebius

作者:来自 ElasticAris PapadopoulosSerena Chou

本博客对 ELSER 在 Hugging Face MTEB 排行榜上的检索相关性进行了比较。

%title插图%num

在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

ELSER(Elastic Learned Sparse EncodeR)是 Elastic 用于语义搜索的转换器语言模型,对于任何有兴趣利用机器学习来提升传统搜索体验的相关性或为新设计的检索增强生成 (Retrieval Augmented Generation – RAG) 应用程序提供支持的人来说,它都是一种流行的模型。

当将同一竞争者系列的多种风格组合在一起时,ELSER v2 仍然位列 MTEB 检索的前 10 名模型之列。它也是前 10 名中极少数在 2023 年发布的模型之一,而大多数竞争对手都在 2024 年发布。

ELSER 的时间线

ELSER 于 2023 年 6 月首次推出,第二版于 2023 年 11 月全面上市,从第一天起,它就被设计为通过捕捉上下文、语义关系和自然语言中的用户意图,最大限度地减少语义搜索的障碍,同时显著提高搜索相关性。在其他用例中,这是 RAG 应用程序的一个非常直观和有价值的补充,因为显示最相关的结果对于生成应用程序根据你自己的私人数据产生准确的响应并最大限度地降低幻觉的可能性至关重要。

ELSER 可以与高度可扩展的分布式 Elasticsearch 向量数据库、开放的推理 API、本机模型管理和 Search AI 平台的全部功能一起使用。

ELSER 是一个组件,它为广泛的用例和组织提供了最先进的语义搜索的附加值。由于它是一个稀疏向量模型(稍后将在博客中进一步解释),它针对 Elasticsearch 平台进行了优化,并且实现了域外的卓越相关性。

ELSER 首次发布时,它在域外检索方面的表现优于竞争对手,即你无需在自己的数据上重新训练/微调模型,这是由行业标准 BEIR 基准衡量的。这证明了 Elastic 致力于实现 AI 搜索的民tgcode主化。

ELSER v2 于 2023 年 10 月发布,通过增加针对 Intel CPU 的优化和引入 token 修剪,在你首选的价格区间内实现了显著的性能提升。因为我们知道,实现 AI 搜索民主化的另一个同样重要的部分是降低其成本。因此,我们提供了两个模型工件:一个针对 Intel CPU 进行了优化(由 Elastic Cloud 利用),另一个跨平台。

%title插图%num
BM25 和 ELSER V2 的 BEIR 数据集的 NDCG@10

客户反馈

如今,全球各地的客户都在生产搜索环境中使用 ELSER,这证明了其易用性和只需点击几下即可实现的即时相关性提升。

ELSER 客户成功案例包括 Consensus佐治亚州立大学等。

当这些客户在试点或初始原型中测试 ELSER 时,一个常见的问题是,ELSER 与使用传统关键字(即 BM25)检索或使用许多其他模型(例如 OpenAI 的 text-embedding-ada-002)可实现的相关性相比如何。为了提供相关的比较见解,我们在 MTEB(v1.5.3)上发布了对 ELSER(通用版本)的整体评估。MTEB 是经过精心挑选的任务和数据集的集合,旨在为 NLP 模型提供可靠的比较框架。引入该模型的动机如下:“文本嵌入通常在单个任务的一小部分数据集上进行评估,而不涵盖其在其他任务中的可能应用。目前尚不清楚最先进的语义文本相似性 (semantic textual similarity – STS) 嵌入是否可以同样很好地应用于其他任务,如聚类或重新排名。这使得该领域的进展难以追踪,因为各种模型不断被提出而没有适当的评估。为了解决这个问题,我们引入了大规模文本嵌入基准 (Text Embedding Benchmark – MTEB)。” (源论文)。

MTEB 比较 – 你需要了解的内容

要对 MTEB 进行有意义的比较,需要考虑许多因素。

  • 首先,参数的数量。模型的参数越多,其潜力就越大,但同时也会耗费更多的资源和成本。大小相似(参数数量)的模型最适合进行比较,因为参数数量相差很大的模型通常在搜索架构中用于不同的目的。
  • 其次,MTEB 的目标之一是比较模型及其在多个不同任务中的变体。ELSER 专门设计用于降低 AI 搜索的门槛,为你提供最先进的域外(state-of-the-art out-of-domain)检索,因此我们将重点关注检索任务的结果。检索使用 ndcg@10 指标进行衡量。
  • 最后,一些tgcode模型以多种形式出现,包含不同数量的参数和其他差异,形成一个系列。将它们分组在一起并与该系列中表现最好的模型进行比较更有意义。

ELSER on MTEB

根据上述内容,过滤多达 2.5 亿个参数的类别(ELSER 有 1.1 亿个参数),在撰写本博客时以及我们正在开发 ELSER v3 时,当将同一竞争者系列的多种风格组合在一起时,ELSER v2 仍然位列检索的前 10 个模型中。它也是 2023 年发布的前 10 名中极少数的模型之一,而大多数竞争者已于 2024 年发布。

%title插图%num
对于参数少于 2.5 亿的模型,检索 (nDCG@10) 的 MTEB 列表的顶部。在撰写本文时,ELSER 在检索任务中排名前 10。它是该组中极少数于 2023 年发布的模型之一,绝大多数于 2024 年发布。该列表在按内联所述进行过滤后,在撰写本文时包含 80 多个模型(未分组)。

Elastic 继续投资 ELSER

如前所述,ELSER 使用上下文稀疏向量表示,这种设计选择使其具有前面提到的良好属性,并为未来版本中已经开发的功能扩展和增益提供了所有空间。这使其在 MTEB 上脱颖而出,因为排行榜上的绝大多数模型都是嵌入,即密集向量。这就是为什么你会注意到 ELSER 的相应 MTEB 列中的维度数量比其他模型多得多。ELSER 扩展了 BERT 的架构,并通过保留掩码语言模型 (masked language model – MLM) 头并对其进行调整以创建和聚合每个输入序列的每个标记激活分布来扩展输出嵌入。因此,维度的数量等于 BERT 的词汇表,对于给定的输入序列,只有一小部分词汇表被激活。

%title插图%num

即将推出的 ELSER v3 模型目前正在开发中,并使用 LLM 生成的数据、新的高级训练方案和其他最先进和新颖的策略进行训练,并支持 GPU 推理。

结论

该领域的创新速度超出了许多客户采用、测试和确保将新模型以企业质量纳入其搜索应用程序的能力。许多客户缺乏对模型工件训练背后的指标和方法的全面了解,导tgcode致采用延迟。

从首次推出 ELSER 模型开始,我们就透明地展示了我们的相关性目标、我们为提高相关性而采取的评估方法,以及对本地、自我管理部署(甚至托管在笔记本电脑上的部署!)上该模型的高效性能的投资,并具备可扩展性以实现大规模生产级搜索体验的能力。

我们的完整结果现已发布在 MTEB 排行榜上,以提供与新兴模型相比的额外基准。在即将推出的 ELSER 版本中,我们预计将应用新的最先进的检索技术,评估模型本身的新用例,并为快速 GPU 驱动的 ELSER 推理工作负载提供额外的基础设施支持。敬请期待!

链接

准备好自己尝试一下了吗?开始免费试用

想要将 RAG 构建到您的应用程序中吗?想要使用向量数据库尝试不同的 LLMs 吗?
在 Github 上查看我们针对 LangChain、Cohere 等的示例笔记本,并立即加入 Elasticsearch Relevance Engine 培训

原文:Elasticsearch ELSER: Comparing retrieval relevance on Hugging Face MTEB — Search Labs

文章来源于互联网:在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

相关推荐: Elasticsearch:使用 inference API 进行语义搜索

本教程中的说明向您展示了如何将 inference API 工作流与各种服务结合使用来对你的数据执行语义搜索。为了说明问题的方便,我将使用 Cohere 服务来进行详细说明。更多其它服务,请详细参阅链接。 重要:有关在 Elastic Stack 中执行语义搜…

Tags: , ,