Elasticsearch:向量搜索的优势 — 以及 IT 领导者需要它来改善搜索体验的 5 个原因
2023年12月15日 | by mebius
作者:Evan Castle
与谷歌和亚马逊等高质量搜索引擎的频繁互动提高了客户对快速且相关搜索的期望。 向量搜索(也称为语义向量搜索)利用深度学习和机器学习来捕获数据的含义和上下文。
向量搜索的好处
向量搜索可以增强公司的搜索体验并带来广泛的好处,包括:
- 以更少的努力向你的用户提供高度相关的结果
- 即使数据量大且多样化,也能快速返回搜索结果
- 启用新类别的文本、图像和音频搜索
- 直接向客户提供更准确的产品推荐、常见问题解答,甚至个性化服务
对于技术领导者,请了解有关向量搜索的更多信息以及它如何帮助你不仅满足而且超越客户的期望。 它可以帮助改变你的搜索体验并帮助你实现业务目标。
那么,什么是向量搜索?
向量搜索将文本、音频和图像转换为数字表示,并利用深度学习和机器学习 (ML) 来解释这些表示的含义、意图和上下文,以提供更相关的搜索结果。
语义向量搜索启动新的搜索类别
无论我们如何编写搜索查询,我们都期望获得高度相关的搜索结果。 但即使是抽象的关键字搜索仍然需要高度的自然语言理解和极快的响应时间。 除此之外,人们还渴望获得更广泛的搜索体验 —— 从视觉购物的图像搜索、Amazon Alexa 等音频搜索,或者 Pinterest 等应用内视觉推荐 —— 很明显,搜索需要适应我们寻tgcode找事物的方式。
语义向量搜索技术更能理解人类语言,可以解释不同的数据格式,如视觉、音频和非结构化文本。 它充当非结构化数据和用户意图(不仅仅是他们的关键字)解释之间的桥梁,以提供不仅满足甚至可能超出预期的强大体验。
Elastic 是一个功能丰富的环境,用于创建各种搜索解决方案。 将语义搜索方面结合到解决方案中的能力是搜索发展的关键,而 Elastic 在这方面处于有利位置。
– Prem Malhotra,思科 ML/AI 和搜索总监
向量搜索可以推动实际收入
向量搜索已被广泛用于提高相关性、促tgcode进销售和增加收入。
Spotify 如何利用向量搜索
Spotify 并不总是对播客(podcasts)使用向量搜索。 不久前,Spotify 主要依赖关键词术语匹配。 此搜索方法将返回包含其索引元数据中具有查询关键字的所有内容的结果。 但用户并不总是准确地输入他们想要的内容。 他们通常不知道使用哪些术语或以非常不同的方式表达自己。
通过匹配语义相关的结果,向量搜索使 Spotify 能够以更少的精力提供更相关的内容,而不需要精确的单词匹配。 例如,搜索 “electric cars climate impact” 现在会返回 “electric cars and ecology” 或 “environmental impact of electric vehicles” 的结果。 语义向量搜索可以识别术语 “climate” 和 “ecology” 或 “electric car” 和“electric vehicle” 的相似性,而不需要搜索工程师或用户做任何事情。
Home Depot 如何通过语义向量搜索提供更相关的搜索结果
家得宝 (Home Depot) 拥有超过 200 万种产品的库存清单,其中包括高度专业化的工具。 客户很难找到合适的工具来满足他们的需求,这常常导致多次尝试和挫折,并增tgcode加了家得宝的回报。 实施语义向量搜索使他们能够通过组合向量和文本搜索向客户提供更相关的结果。
例如,当客户搜索关键字 “roofing supplies” 时,它也会返回木瓦 (shingles)。 这使得家得宝搜索团队不再需要将创意产品描述、区域差异和拼写错误的关键字加载到搜索索引中。
详细了解自然语言处理 (NLP),即向量搜索背后的技术。
无论你的公司规模如何,都可以实施向量搜索
向量搜索可用于广泛的用例。 无论你的公司规模大小或拥有多少数据,如果你使用正确的工具,向量搜索都可以帮助你改善搜索体验。 使用向量搜索可以帮助你实现:
更好的相关性以推动更好的参与
向用户提供更有用的结果可以提高你网站和应用程序的参与度。 当单词可能具有多种含义或不明确时,基于关键字的搜索效果不佳。 即使在非常大的数据集上,语义向量搜索也能提供更精确的结果。 它利用语义搜索技术返回相关结果,即使用户不知道确切的关键字也是如此。
即使在大数据量上也能实现更快的性能
向量搜索可以与传统搜索评分相结合,以获得更好的搜索体验。 即使在更大的数据集上,这也能更快地提供更相关的结果。 最近邻和近似最近邻等算法利用有效的方法来处理和排序大量文档以进行搜索查询。
扩展搜索类别
使用向量搜索引擎(称为向量数据库、语义或余弦搜索)启用图像或音频等新型搜索。 例如,电子商务企业可以允许网站访问者上传裙子等产品的图片并搜索类似的商品。 这为一些购物者创造了参与度和更简单的搜索方式。
假设一名员工正在寻找领导力课程。 通过 Elastic Enterprise Search 中的向量搜索,我们可以更好地了解用户的意图,并返回针对其行业、组织和角色量身定制的课程。
– Jon Ducrou,Go1 工程高级副总裁
语义向量搜索解释搜索的上下文、意图和含义,因此你的客户无需
语义向量搜索通过确定查询的意图、含义和上下文来实现更大的相关性。 这是通过将搜索查询转换为有意义的数字表示或向量来完成的,将其与数据集进行比较以测量相似性并找到最相关的结果。 为了做出明智的决策,技术领导者需要对向量搜索有高水平的技术理解,需要了解三个组成部分。
- 通过向量嵌入将文本转换为数字:任何算法都需要数字才能工作。 向量将关键字文本转换为捕获文本语言内容的数字数据。 例如,两个广泛使用的模型 —— Word2Vec 和 BERT —— 是通过分析大量语言数据样本创建的,以了解单词共现的频率和单词之间的关系。 因此,“Canada” 的向量可能在一个方向上接近 “France”,而在另一个方向上接近 “Toronto”。 这些模型使我们能够将关键字、句子或段落转换为可以比较的向量嵌入。
- 使用更好的搜索算法更快地搜索:向量搜索的另一个重要组成部分是高性能算法,即使在比较数十亿个文档时也可以快速比较并返回相关结果。 这可以包括近似最近邻 (ANN),它是邻近搜索的一种形式,用于查找给定集合中与给定查询最接近(最相似)的结果。 人工神经网络高效运行,可扩展到大型数据集,同时保持性能。 为了提高查询速度,会生成一个图表来导航所有数据点并将向量快速映射到最相似的匹配结果。
- 使用距离度量发现相似的结果:向量可以为每个关键字分配一组不同的坐标,通过测量搜索词出现在一起的距离来评估查询和文档之间的相似性。 向量之间的距离越短,内容越相似。 余弦相似度等度量用于确定两个数字和向量序列之间的相似度,以返回最相似的结果。
如何快速获得向量搜索引擎的所有优势
虽然某些解决方案可能承诺增强搜索体验,但 Elastic 被誉为搜索驱动技术的领导者。 我们的客户能够使用 Elastic 平台快速体验到好处,并通过向量搜索等新的创新功能不断完善他们的搜索体验。
为什么使用 Elastic 进行向量搜索?
在 Elastic,我们提供了一个简单的部署路径来实施矢量搜索和混合搜索,以便你可以立即开始增强你的搜索体验。 这是因为我们的向量搜索结合了多种搜索相关性的方法,为你提供 Elastic 的所有优势(性能、简单性和定制)以及向量搜索的强大功能。
你可以部署向量搜索来解决搜索体验中的最大差距。
Elastic 对大量文档的查询性能更快。 为了提高查询速度,Elastic 使用生成的图表来导航所有数据点并将向量快速映射到最相似的匹配结果。 这种向量相似性搜索方法使用称为分层可导航小世界 (HNSW) 的 ANN 算法。 为了加速查询性能,支持多层 HNSW,使你可以更快地遍历图形。 新层优化了查询路由,因为每个附加的较高层具有较少的数据点,需要在较大距离的数据点之间进行较少的跳数才能找到最近的邻居。
Elastic 提供了简单、集成的端到端解决方案。 正如我们之前讨论的,语义向量搜索需要输入向量嵌入来确定相似性。 大多数解决方案需要外部过程来生成向量嵌入,例如,对于可能是深度神经网络但不是 Elastic 的文本。 Elastic 向量搜索的优势在于创建对向量嵌入的支持非常容易。
这是通过密集向量字段类型实现的,该类型存储浮点值的密集向量,可用于通过 Elastics kNN 搜索 API 快速查找相似结果。 这简化了实现并允许你更轻松地生成向量。 团队可以立即体验到价值。 此外,你还可以利用 Elastic 作为向量进行分发、计算和扩展,从而提高性能并降低成本。
Elastic 按你的方式工作 — 根据你的需求进行定制。 Elastic 支持 PyTorch,它使你可以完全控制部署自己的模型。 你可以根据你的特定需求或行业对其进行定制,以提供竞争优势。 Elastic 还通过 HuggingFace 提供开箱即用的模型,作为快速启动选项,利用不断增长的领先语言模型社区。
更好的搜索对你的业务有好处
不断增长的客户需求使得提供出色的搜索体验成为必须。 幸运的是,语义向量搜索是一种进化技术,可以提供卓越的搜索体验。 无论是新类型的搜索、更快的结果、更高的相关性还是个性化 — Elastic 都可以帮助你交付。 要继续你的旅程,请使用我们的技术博客了解如何通过向量搜索真正产生影响。