Elasticsearch:升级到 elasticsearch-py 8.x 的 10 个理由
2024年1月21日 | by mebius
作者:来自 Elastic 公司Quentin_Pradet
早在 2022 年 2 月,当 Elasticsearch 8.0 发布时,Python 客户端也发布了 8.0 版本。 它是 7.x 客户端的部分重写,并附带了许多不错的功能(概述如下),但也有弃用警告和重大更改。 如今,7.17 版客户端仍然相对受欢迎,每月下载量超过 100 万次,约占 8.x 下载量的 50%。
作为 Elasticsearch Python 客户端的新维护者,我希望我们的社区能够从我们在客户端中所做的改进中受益,通过帮助所有 elasticsearch-py 用户:
- 帮助 7.17 用户迁移到 8.x,
- 帮助 8.x 用户利用新功能。
根据我作为 urllib3 维护者的经验,我知道投资 urllib3 2.0 迁移指南并帮助用户迁移是有回报的。 同样,我们现在正在努力通过删除弃用警告和重大更改来使 elasticsearch-py 8.x 更易于使用。 这篇文章重点介绍了升级到 8.x 的充分理由:这些理由在近两年内都是如此,但最近的理由也是如此。 顺便说一句,如果你已经确信,请查看我们的迁移指南(如果你遇到困难,请务必联系我们!):
Migrating to 8.0 | Elasticsearch Python Client [8.11] | Elastic
话不多说,以下是使用 elasticsearch-py 8.x 的十个理由。
1. 支持最新的 Elasticsearch API
Elasticsearch 8 是 Elasticsearch 的最佳版本,全面进行了许多改进,并大大增加了可扩展性。更重要的是,对于我们对 Python 客户端的讨论,添加了各种新的 API:
- 使用 _search API 的 knn 选项进行向量搜索(8.5,替换 8.0 中引入的 _knn_search API)
- 执行模型推理 API (8.11) 和训练模型 API (8.5)
- 搜索应用程序 (8.8)、查询规则 (8.10) 和同义词 API (8.10)
由于客户端是根据 Elasticsearch 规范生成的,因此可以保证获得最新、最好的 API。
2. Elasticsearch DSL 客户端 8.x
Elasticsearch DSL 客户端 是一个高级库,其目的是帮助以更简洁的方式编写和运行针对 Elasticsearch 的查询。 使用与之前文章相同的 christmas_characters 索引作为示例:
response = client.search(
index="christmas_characters",
query={
"bool": {
"must": [{"match": {"behavior": "good"}}]
}
}
)
for hit in response['hits']['hits']:
print(hit['_score'], hit['_source']['title'])
变成:
s = Search(using=client, index="christmas_characters").query("match", behavior="good")
for hit in s.execute():
print(hit.meta.score, hit.title)
你要么喜欢它的简洁性,要么讨厌学习新的 DSL,但这个客户端非常受欢迎,每月下载量超过 300 万次,并拥有专门的用户群。 它过去维护得很差,一直停留在 7.4.1 版本,但我在 9 月份发布了 8.9.0 版本,这是第一个与主要 Python 客户端版本 8 兼容的版本。
我致力于维护它,并于上个月发布了 8.11.0,以支持 Python 3.12 并允许折叠(collapsing queries)查询(相关 GitHub 问题已累积 38 票!)。
3.种类型提示和更多 Pythonic API
从 Elasticsearch Python 客户端的早期(早在 2013 年 7 月起!)开始,body 参数就是为接受它的请求指定请求正文的方法。 使用 body 的 API 调用如下所示:
es.search(
index="christmas_characters",
body={
"query": {"match_all": {}},
"size": 50,
}
)
然而,这个参数是一个无类型的 Python 字典,没有经过客户端验证,这意味着在将请求发送到服务器之前你无法判断你的请求是否正确。 但你不想了tgcode解生产中的基本问题! 因此,elasticsearch-py 8.0 利用 Elasticsearch 规范引入了更好的 API,该规范提供了每个 API 的完整类型。 第一层主体键可以使用 Python 参数指定:
es.search(
index="christmas_characters",
query={"match_all": {}},
size=50,
)
这具有多种优点,包括更好的自动完成和类型检查。 例如,如果 size 不是整数,mypy 将引发错误。 因为我们意识到我们可以将 body unpack为类型化参数,如下所示:
es.search(
index="christmas_characters",
**{"query": {"match_all": {}}, "size": 50}
)
我们决定在 elasticsearch-py 8.0 中完全弃用 body 参数。
4. 恢复 body 参数
然而,弃用 body 有以下缺点:
- 过去十年编写的许多代码现在都触发了弃用警告
- 未知参数(例如 sub_searches 或 Elasticsearch 规范中的无意遗漏)被拒绝,导致查询彻底失败,不必要地强制使用原始请求。
- 诸如传递已编码主体以避免支付序列化 JSON 成本之类的优化已不再可能。
客户端的原作者 Honza Krl 指出了这些问题 ,我们决定让 body 与新 API 一起像以前一样工作,没有任何警告。 这将在 elasticsearch-py 8.12 中提供,我们希望这将有助于 elasticsearch-py 8.x 的采用。
5. 记录调试请求
elasticsearch-py 8.x 客户端基于 elastic-transport 库,可以作为不同客户端的基础。 该库引入了一个非常有用的功能来调试请求和响应,通过调用 elastic_transport.debug_logging() 来启用。
import elastic_transport
from elasticsearch import Elasticsearch
# In this example we're debugging an Elasticsearch client:
client = Elasticsearch(...)
# Use `elastic_transport.debug_logging()` before the request
elastic_transport.debug_logging()
client.search(
index="christmas_characters",
query={
"bool": {
"must": [{"match": {"behavior": "good"}}]
}
}tgcode
)
上述脚本将输出以下日志:
[2021-11-23T14:11:20] > POST /example-index/_search?typed_keys=true HTTP/1.1
> Accept: application/json
> Accept-Encoding: gzip
> Authorization: Basic
> Connection: keep-alive
> Content-Encoding: gzip
> Content-Type: application/json
> User-Agent: elastic-transport-python/8.11.0+dev
> X-Elastic-Client-Meta: es=8.11.0p,py=3.12.0,t=8.11.0p,ur=2.1.0
> {"query":{"match":{"text-field":"value"}}}
从我了解到这个功能的那天起,这个功能就成为了我开发工作流tgcode程的重要组成部分,现在我在其他客户端中怀念它:它就是那么好!
6. 全链 SSL/TLS 指纹固定
当通过 HTTPS 与 Elasticsearch 通信时(这是从 Elasticsearch 8 开始的默认设置),客户端需要能够验证服务器正在使用的证书,就像你的浏览器在获取单词之前必须验证 discuss.elastic.co 的证书一样 您当前正在阅读。 这是通过跟踪证书链直至根证书颁发机构(根 CA)来实现的。 但是,该根 CA 不一定是已受信任的通用根 CA,而可能是整个公司使用的企业根 CA,甚至可能是 Elasticsearch 为单个集群生成的根 CA。
在这些情况下,有两种方法可以正确验证证书:
- 将相关的证书颁发机构存储在文件中,并配置 ca_certs 参数。 然而,存储此文件需要额外的步骤,并且访问公共证书并不总是那么容易。
- 指定集群中每个节点的 SSL 指纹,以确保每个节点的证书永远不会改变。 但是,你需要为每个节点执行此操作,这对于较大的集群来说在实践中是不可能的。
值得庆幸的是,作为 Python 信任存储工作的一部分,前 Elasticsearch Python 客户端维护者 Seth Larson 意识到,使用 Python 3.10+ 私有 API ,可以固定根 CA 的指纹,从而允许验证所有节点的证书,从而带来 两全其美的。 请参阅配置| Elasticsearch Python 客户端 [8.11] | Elastic适用于 Python 客户端中有关 TLS 的所有选项。
7. options() API
在 elasticsearch-py 7.x中,客户端 API 方法中允许使用每个请求选项,例如 api_key 和 ignore。 然而,这很令人困惑,因为它混合了传输级参数和 API 级参数。 现在已弃用,因为 elasticsearch-py 8.x 引入了 options() API,转换:
client.search(index="christmas_characters", request_timeout=10)
为:
client.options(request_timeout=10).search(index="christmas_characters")
有关详细信息,请参阅迁移指南。
8. 改进文档
当前的主要焦点是改进 Python 客户端的文档。
API 参考按命名空间划分,以减少类似名称的 API(如 es.exists 和 es.indices.exists)之间的混淆。
它还包括内联类型提示:
9.无服务器 – serverless
Elastic 的最新产品 Serverless 有一个专用的 Elasticsearch Python 客户端 elasticsearch-serverless-python,其中仅包含 Serverless 支持的 API 和选项。
也就是说,默认的 Python 客户端 elasticsearch-py 也支持 Serverless,这使得你可以轻松地使用现有代码尝试 Serverless!
10. 生成式人工智能
Elastic 在 Generative AI 方面投入了大量资金,Elasticsearch 是下载次数最多的向量数据库! 最好的入门方式是 Elastic Search Labs。它包含适用于 elasticsearch-py 8.x 的每个用例的博客文章和 Python 笔记本。
就是这样! 谢谢阅读。 当你准备好升级时,迁移指南是最好的起点。
Migrating to 8.0 | Elasticsearch Python Client [8.11] | Elastic
文章来源于互联网:Elasticsearch:升级到 elasticsearch-py 8.x 的 10 个理由
相关推荐: Elasticsearch:使用 OpenAI 生成嵌入并进行向量搜索 – nodejs
在我之前的文章: Elasticsearch:使用 Open AI 和 Langchain 的 RAG – Retrieval Augmented Generation (一)(二)(三)(四) 我详细地描述了如何使用 LangChain 及 Ope…