跳过 MLOps:通过 Cloud Connect 使用 EIS 为自管理 Elasticsearch 提供托管云推理

2026年2月7日   |   by mebius

作者:来自 ElasticJordi Mon CompanysMatt Ryan

%title插图%num

介绍通过 Cloud Connect 的 Elastic Inference Service (EIS),它为自管理 Elasticsearch 用户提供混合架构,消除了语义搜索和 RAG 的 MLOps 与 CPU 硬件障碍。

测试 Elastic 的前沿开箱即用功能。现在就可以浏览我们的示例笔记本,启动免费的云试用,或在本地机器上体验 Elastic。


如果你在本地或私有云运行 Elasticsearch,你可能会遇到一个熟悉的困境:你想实现语义搜索。你知道像 jina-embeddings-v3 这样的最先进密集向量模型是提升相关性的标准。但当你看到运行这些模型所需的基础设施要求时,项目就停滞了。

问题通常不在于软件:Elasticsearch 多年来一直支持向量搜索。问题在于硬件。

MLOps 瓶颈

运行模型推理以生成语义搜索所需的 embeddings 是计算密集型的。如果你自管理集群,这会带来一系列关于运维复杂性和资源灵活性的艰难权衡:

  • 消耗 CPU 周期:你在现有的 CPU 节点上运行模型。这对小数据集和小模型可行,但随着数据吞吐量增加,你的索引吞吐量会急剧下降,搜索节点最终被向量生成任务占满,而无法正常服务查询。

  • 配置 GPU:你向基础设施团队申请 GPU 加速节点。在许多组织中,这会引发采购噩梦。GPU 昂贵且稀缺,同时引入新的机器学习运维(MLOps)复杂性:驱动兼容性、容器编排、扩展逻辑等,团队可能没有时间管理。

这就造成了一个差距:自管理部署往往只能停留在关键字搜索(BM25),仅仅因为 AI 的基础设施门槛太高。

引入混合推理架构

我们构建了 Elastic Inference Service (EIS),并通过 Cloud Connect 提供,以解决硬件限制问题。它允许自管理集群(运行在 Elastic Cloud on Kubernetes [ECK]、Elastic Cloud Enterprise [ECE] 或独立环境中),无论是在本地还是私有云环境,都能将计算密集型的模型推理任务委托给 Elastic Cloud

这不需要对集群架构进行整体迁移。虽然需要向云端传输你希望向量化的文本字段进行处理,但你不需要永久迁移数 TB 的业务数据,也不必重新设计存储架构。

这种混合拓扑的优势在于:数据节点、主节点和索引存储仍然保留在你的私有环境中,而生成 embeddings 的重负载计算则外包给 Elastic 管理的 GPU 集群。

工作原理:数据留在本地,智能随行

理解存储和推理的区别很重要。当你通过 Cloud Connect 使用 EIS 时:

  • 握手:你在 Elastic Cloud 生成 API key 并粘贴到自管理的 Kibana 实例中。这建立了一个安全、认证的桥梁。
  • 管道:当你使用 semantic_text 字段索引文档(或手动配置 inference processor)时,本地集群只会自动发送特定文本内容到 EIS endpoint,传输中加密。
  • 推理:文本在 Elastic 管理的 GPU 内存中处理。生成的 vector embedding 会立即返回到本地集群。
  • 存储:vector 会被索引并存储在本地磁盘,与原始源文档一起保存。

原始文本有效负载是短暂的:它仅用于推理处理后即被丢弃,永远不会在云端被索引或永久存储。你可以获得 GPU 加速集群的相关性,而无需改变你的数据驻留策略。

扩展语义搜索而无需硬件配置

来看一个实际场景。你是一个 site reliability engineer (SRE),负责管理一个大型 ecommerce 平台的集群。搜索团队想部署 Jina 来解决 “zero results” 查询问题,但你的本地节点受限于 CPU,且没有可用 GPU 基础设施。

下面是如何通过 Cloud Connect 使用 EIS,在几分钟内解决这个问题,而不是几个月。

步骤 1:握手

首先,建立自管理集群与 Elastic Cloud 之间的桥梁:

  • 在本地 Kibana 中导航到 Stack Management

  • Cloud Connect 部分,点击 Connect to Elastic Cloud

  • 使用你的 Elastic Cloud 凭证进行认证,并授权连接。
    结果:你的本地集群现在已连接云端,作为一个卫星节点,可以使用 Software as a Servtgcodeice (SaaS) 服务。

%title插图%num

%title插图%num

步骤 2:启用服务

  • 在 Cloud connected services 页面,找到 Elastic Inference Service

  • 点击 Enable,并等待状态切换为 Enabled

%title插图%num

%title插图%num

这使得所有这些 inference endpoints 可以立即在本地使用:

%title插图%num

步骤 3:配置 pipeline

现在服务可用,你可以配置一个 ingest pipeline。无需管理本地 Jina 容器,只需指向 cloud-hosted model。打开 console,并在本地尝试 Jina embeddings model:

PUT /semantic-search-tgcodeeis
{
  "mappings": {
    "properties": {
      "text": {
        "type": "semantic_text",
        "inference_id": ".jina-embeddings-v3"
      }
    }
  }
}

POST /semantic-search-eis/_doc
{
  "text": "Aberdeen Football Club"
}

GET /semantic-search-eis/_search
{
  "query": {
    "match": {
      "text": "soccer"
    }
  }
}

这个 match 查询会返回针对 “Aberdeen Football Club” 的语义正确结果,而不是像严格匹配 “soccer” 那样只返回字面上匹配的内容,因为语义搜索理解查询意图而不是字面词匹配。

{
  "took": 42,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.89421,
    "hits": [
      {
        "_index": "semantic-search-eis",
        "_id": "1",
        "_score": 0.89421,
        "_source": {
          "text": "Aberdeen Football Club"
        }
      }
    ]
  }
}

步骤 4:混合 ingestion

当你通过这个 pipeline 索引文档时,流程如下:

  • 你的本地 node 接收文档。
  • 文本字段被安全地传输到 EIS endpoint。
  • Elastic Cloud 使用 Jina v3 在托管 GPU 上生成 dense vector embedding。
  • 生成的 vector 被返回并在你的自管理磁盘上本地索引。

哦,还有一件事:LLMs 也可以通过 Cloud Connect 使用!

虽然 vector search 解决了 retrieval-augmented generation (RAG) 的检索部分,Cloud Connect 也解决了生成部分。通常,要让你的自管理团队访问高质量 large language models (LLMs),比如 Anthropic 的 Claude,需要单独的采购流程、管理供应商 API key,并处理安全出口。

EIS 通过 Cloud Connect 完全消除了这些障碍。

  • 预配置访问:一旦启用服务,你就可以访问预配置的 Anthropic connector(一个用于 Claude 3.7,一个用于 Claude 4.5)。你不需要提供自己的 API key,也不需要与模型提供商签署单独合同。
  • 零设置:它开箱即用。因为安全桥已经建立,你可以立即在 Search Playground 中选择这些模型来对本地数据测试 RAG。
  • 集成 workflows:这也为我们的内部 AI 工具提供动力。你的团队可以立即开始使用 Elastic AI Assistant 获取 observability insights,或使用 Attack Discovery 进行安全威胁分析,所有这些都由云托管的 LLMs 提供支持,并以你的本地数据为基础。

%title插图%num

%title插图%num

AI 的捷径

EIS 通过 Cloud Connectgcodet 消除了管理 GPU driver、专用硬件和复杂性能监控堆栈的操作障碍。通过将这些需求卸载到 Elastic Cloud,你可以立即构建 RAG 应用和 semantic search 界面,无论你的 cluster 是在 on-premises 还是在 private cloud VPC 上运行。

混合方法解决了自管理 AI 常见的资源利用问题。你不再需要过度配置在低负载时闲置的昂贵硬件,也不必担心流量高峰时的性能瓶颈。你只需通过 Cloud Connect 建立安全连接,就能以 managed API 的方式使用高性能 inference,同时保持数据驻留安全,并让你的 search 能力即时扩展。

EIS 通过 Cloud Connect 现已对 Elastic Stack 9.3Elastic Enterprise 自管理客户开放。

原文:https://www.elastic.co/search-labs/blog/cloud-connect-elastic-inference-service

文章来源于互联网:跳过 MLOps:通过 Cloud Connect 使用 EIS 为自管理 Elasticsearch 提供托管云推理

相关推荐: Elastic 9.3:与数据对话、构建自定义 AI agents、实现全自动化

作者:来自 ElasticDan Courcy 今天,我们很高兴宣布 Elastic 9.3 正式发布,作为 Elasticsearch 平台的最新版本 —— 这是全球最受欢迎的开源平台,用于将结构化和非结构化数据转化为可信的答案和成果。 全球最受欢迎的开源平…

Tags: , ,