Elasticsearch:transform 例子

2022年11月10日   |   by mebius

在今天的文章中,我将展示如何使用 transform 从数据中获得有用的见解。 所有示例都使用 Kibana 示例数据集之一。 有关更详细的分步示例,请参阅教程 “Elasticsearch:Transforms 介绍”。在今天的展示中,我将使用最新的 Elastic Stack 8.4.3 来进行展示。

准备数据

我们将使用 Kibana 中自带的数据 eCommerce,Flight 及 web logs 数据来进行展示:

%title插图%num

%title插图%num

%title插图%num

这样,我们就加载了一个叫做kibana_sample_data_ecommerce 的索引到 Elasticsearch 中了。

按照同样的方法,我们加载上面所示的 Sample flight data:

%title插图%num

它生成一个叫做kibana_sample_data_flights 的索引。

我也加载 Sample web logs 样本数据:

%title插图%num

它将生成kibana_sample_data_logs 索引数据。

寻找你最好的客户

此示例使用电子商务订单样本数据集来查找在假设的网上商店中花费最多的客户。 让我们使用 pivot 类型的转换,以便目标索引包含订单数量、订单总价、唯一产品数量和每个订单的平均价格,以及每个客户的订购产品总量。

我们进入到 transform 的界面:

%title插图%num

%title插图%num

%title插图%num%title插图%num

%title插图%num

%title插图%num

%title插图%num

%title插图%num

%title插图%num

按照上面的方法,我们把各个项逐个添加,最终我们可以看到如下的表格:

%title插图%num

除了使用上面的 transform 界面之外,我们也可以使用 API 来完成。我们可以使用 preview transformcreate transform API 来完成:

POST _transform/_preview
{
  "source": {
    "index": "kibana_sample_data_ecommerce"
  },
  "dest" : { 
    "index" : "sample_ecommerce_orders_by_customer"
  },
  "pivot": {
    "group_by": { 
      "user": { "terms": { "field": "user" }},
      "customer_id": { "terms": { "field": "customer_id" }}
    },
    "aggregations": {
      "order_count": { "value_count": { "field": "order_id" }},
      "total_order_amt": { "sum": { "field": "taxful_total_price" }},
      "avg_amt_per_order": { "avg": { "field": "taxful_total_price" }},
      "avg_unique_products_per_order": { "avg": { "field": "total_unique_products" }},
      "total_unique_products": { "cardinality": { "field": "products.product_id" }}
    }
  }
}

由于我们使用了 _preview,目标索引被忽略了。在上面,我们使用了两个 group_by 字段。这意味着转换包含每个 user 和 customer_id 组合的唯一行。 在这个数据集中,这两个字段都是唯一的。 通过将两者都包含在转换中,它为最终结果提供了更多上下文。

preview 转换 API 使你能够提前查看转换的布局,其中填充了一些示例值。 例如:

{
  "preview": [
    {
      "total_order_amt": 3946.9765625,
      "order_count": 59,
      "total_unique_products": 116,
      "avg_unique_products_per_order": 2,
      "customer_id": "10",
      "user": "recip",
      "avg_amt_per_order": 66.89790783898304
    },
    {
      "total_order_amt": 5196.6796875,
      "order_count": 75,
      "total_unique_products": 148,
      "avg_unique_products_per_order": 2,
      "customer_id": "11",
      "user": "fuzzy",
      "avg_amt_per_order": 69.2890625
    },
    {
      "total_order_amt": 9659.125,
      "order_count": 135,
      "total_unique_products": 266,
      "avg_unique_products_per_order": 2,
      "customer_id": "12",
      "user": "brigitte",
      "avg_amt_per_order": 71.54907407407407
    },
  ...
 ]
}

这种 transform 可以更轻松地回答以下问题:

  • 哪些客户花费最多?
  • 哪些客户在每个订单中花费最多?
  • 哪些客户最常订购?
  • 哪些客户订购的不同产品数量最少?

可以单独使用聚合来回答这些问题,但是 transform 允许我们将这些数据作为以客户为中心的索引进行持久化。 这使我们能够大规模分析数据,并为从以客户为中心的角度探索和导航数据提供更大的灵活性。 在某些情况下,它甚至可以使创建可视化变得更加简单。

寻找延误最多的航空公司

此示例使用航班示例数据集来找出延误最多的航空公司。 首先,使用查询过滤器过滤源数据,使其排除所有已取消的航班。 然后将数据转换为包含不同的航班数量、延误分钟数的总和以及航空承运人的飞行分钟数的总和。 最后,使用 bucket_script 确定实际延误的飞行时间百分比。

POST _transform/_preview
{
  "source": {
    "index": "kibana_sample_data_flights",
    "query": { 
      "bool": {
        "filter": [
          { "term":  { "Cancelled": false } }
        ]
      }
    }
  },
  "dest" : { 
    "index" : "sample_flight_delays_by_carrier"
  },
  "pivot": {
    "group_by": { 
      "carrier": { "terms": { "field": "Carrier" }}
    },
    "aggregations": {
      "flights_count": { "value_count": { "field": "FlightNum" }},
      "delay_mins_total": { "sum": { "field": "FlightDelayMin" }},
      "flight_mins_total": { "sum": { "field": "FlightTimeMin" }},
      "delay_time_percentage": { 
        "bucket_script": {
          "buckets_path": {
            "delay_time": "delay_mins_total.value",
            "flight_time": "flight_mins_total.value"
          },
          "script": "(params.delay_time / params.flight_time) * 100"
        }
      }
    }
  }
}

首先,过滤源数据以仅选择未取消的航班。目标索引被忽略,这是因为我们选择了 preview。数据按包含航空公司名称的 carrier 字段分组。此 bucket_script 对聚合返回的结果执行计算。 在这个特定示例中,它计算了延误占用的行程时间百分比。

预览显示,新索引将包含每个 carrier 的如下数据:

{
  "preview": [
    {
      "carrier": "ES-Air",
      "flights_count": 2802,
      "flight_mins_total": 1436927.5130677223,
      "delay_time_percentage": 9.335543983955839,
      "delay_mins_total": 134145
    },
    {
      "carrier": "JetBeats",
      "flights_count": 2833,
      "flight_mins_total": 1451143.6898144484,
      "delay_time_percentage": 8.937088787987832,
      "delay_mins_total": 129690
    },
    {
      "carrier": "Kibana Airlines",
      "flights_count": 2832,
      "flight_mins_total": 1419081.404241085,
      "delay_time_percentage": 9.088273556017194,
      "delay_mins_total": 128970
    },
   ...
  ]
}

这种转换可以更轻松地回答以下问题:

  • 哪个航空公司的延误占飞行时间的百分比最多?

查找可疑的客户端 IP

此示例使用 Web 日志示例数据集来识别可疑客户端 IP。 它转换数据,使新索引包含字节总和以及不同 URL、代理、按位置的传入请求以及每个客户端 IP 的地理目的地的数量。 它还使用过滤器聚合来计算每个客户端 IP 接收到的特定类型的 HTTP 响应。 最终,以下示例将 Web 日志数据转换为以实体为中心的索引,其中实体为 clientip。

PUT _transform/suspicious_client_ips
{
  "source": {
    "index": "kibana_sample_data_logs"
  },
  "dest" : { 
    "index" : "sample_weblogs_by_clientip"
  },
  "sync" : { 
    "time": {
      "field": "timestamp",
      "delay": "60s"
    }
  },
  "pivot": {
    "group_by": {  
      "clientip": { "terms": { "field": "clientip" } }
      },
    "aggregations": {
      "url_dc": { "cardinality": { "field": "url.keyword" }},
      "bytes_sum": { "sum": { "field": "bytes" }},
      "geo.src_dc": { "cardinality": { "field": "geo.src" }},
      "agent_dc": { "cardinality": { "field": "agent.keyword" }},
      "geo.dest_dc": { "cardinality": { "field": "geo.dest" }},
      "responses.total": { "value_count": { "field": "timestamp" }},
      "success" : { 
         "filter": {
            "term": { "response" : "200"}}
        },
      "error404" : {
         "filter": {
            "term": { "response" : "404"}}
        },
      "error5xx" : {
         "filter": {
            "range": { "response" : { "gte": 500, "lt": 600}}}
        },
      "timestamp.min": { "min": { "field": "timestamp" }},
      "timestamp.max": { "max": { "field": "timestamp" }},
      "timestamp.duration_ms": { 
        "bucket_script": {
          "buckets_path": {
            "min_time": "timestamp.min.value",
            "max_time": "timestamp.max.value"
          },
          "script": "(params.max_time - params.min_time)"
        }
      }
    }
  }
}

在这次练习中,我们没有使用 preview,而是直接生成相应的索引sample_weblogs_by_clientip。在上面,我们使用了 sync 配置。它将转换配置为连续运行。 它使用时间戳字段来同步源索引和目标索引。 最坏情况下的摄取延迟为 60 秒。数据按 clientip 字段分组。filter 聚合,计算响应字段中成功 (200) 响应的出现次数。 以下两个聚合(error 404 和 error 5xx)按错误代码计算错误响应,匹配精确值或响应代码范围。这个 bucket_script 根据聚合的结果计算 clientip 访问的持续时间。

创建转换后,你必须启动它:

POST _transform/suspicious_client_ips/_start

不久之后,第一个结果应该在目标索引中可用:

GET sample_weblogs_by_clientip/_search

搜索结果显示每个客户端 IP 的数据如下:

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1000,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "sample_weblogs_by_clientip",
        "_id": "MOeHH_cUL5urmartKj-b5UQAAAAAAAAA",
        "_score": 1,
        "_source": {
          "geo": {
            "src_dc": 1,
            "dest_dc": 2
          },
          "success": 2,
          "error404": 0,
          "clientip": "0.72.176.46",
          "agent_dc": 2,
          "bytes_sum": 4422,
          "responses": {
            "total": 2
          },
          "error5xx": 0,
          "url_dc": 2,
          "timestamp": {
            "duration_ms": 521916980,
            "min": "2022-10-17T07:51:57.333Z",
            "max": "2tgcode022-10-23T08:50:34.313Z"
          }
        }
      },
      {
        "_index": "sample_weblogs_by_clientip",
        "_id": "MGNzzFDYQ28eyzVadV_UHVUAAAAAAAAA",
        "_score": 1,
        "_source": {
          "geo": {
            "src_dc": 1,
            "dest_dc": 3
          },
          "success": 3,
          "error404": 0,
          "clientip": "0.207.229.147",
          "agent_dc": 3,
          "bytes_sum": 14174,
          "responses": {
            "total": 3
          },
          "error5xx": 0,
          "url_dc": 3,
          "timestamp": {
            "duration_ms": 694814737,
            "min": "2022-10-19T11:02:32.392Z",
            "max": "2022-10-27T12:02:47.129Z"
          }
        }
      },
  ...

注意:与其他 Kibana 示例数据集一样,Web 日志示例数据集包含相对于你安装它的时间戳,包括未来的时间戳。 连续变换将拾取过去的数据点。 如果你之前安装了 web 日志示例数据集,你可以卸载并重新安装它,时间戳会发生变化。

这种转换可以更轻松地回答以下问题:

  • 哪些客户端 IP 传输的数据量最多?
  • 哪些客户端 IP 与大量不同的 URL 交互?
  • 哪些客户端 IP 的错误率高?
  • 哪些客户端 IP 正在与大量目的地国家/地区进行交互?

查找每个 IP 地址的最后一个日志事件

此示例使用 Web 日志示例数据集从 IP 地址查找最后一个日志。 让我们在连续模式下使用 latest 类型的变换。 它将每个唯一键的最新文档从源索引复制到目标索引,并在新数据进入源索引时更新目标索引。

选择 clientip 字段作为唯一键; 数据按此字段分组。 选择时间戳作为按时间顺序对数据进行排序的日期字段。 对于连续模式,指定用于标识新文档的日期字段,以及检查源索引更改的时间间隔。

%title插图%num

%title插图%num

%title插图%num

%title插图%num

%title插图%num

%title插图%num

%title插图%num

此转换创建包含每个客户端 IP 的最新登录日期的目标索引。 当转换以连续模式运行时,目标索引将更新为进入源索引的新数据。

我们也可以使用 API 来完成:

PUT _transform/last-log-from-clientip
{
  "source": {
    "index": [
      "kibana_sample_data_logs"
    ]
  },
  "latest": {
    "unique_key": [ 
      "clientip"
    ],
    "sort": "timestamp" 
  },
  "frequency": "1m", 
  "dest": {
    "index": "last-log-from-clientip"
  },
  "sync": { 
    "time": {
      "field": "timestamp",
      "delay": "60s"
    }
  },
  "retention_policy": { 
    "time": {
      "field": "timestamp",
      "max_age": "30d"
    }
  },
  "settings": {
    "max_page_search_size": 500
  }
}

在上面,我们定义 clientip 字段来进行分组。我们定义 timestamp 字段来进行排序。我们使用 frequency 来定义检查 source 有没有变化的间隔。我们使用 sync 来定义 延迟的时间以保证 source 和 destination 进行同步。在上面,我们也定义了 retention_policy。早于配置值的文档将从目标索引中删除。

创建转换后,启动它:

POST _transform/last-log-from-clientip/_start

转换处理数据后,搜索目标索引:

GET last_log_event_for_each_ip/_search

搜索结果显示每个客户端 IP 的数据如下:

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1001,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "last_log_event_for_each_ip",
        "_id": "MOeHH_cUL5urmartKj-b5UQAAAAAAAAA",
        "_score": 1,
        "_source": {
          "referer": "http://twitter.com/error/don-lind",
          "request": "/elasticsearch",
          "agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)",
          "extension": "",
          "memory": null,
          "ip": "0.72.176.46",
          "index": "kibana_sample_data_logs",
          "message": "0.72.176.46 - - [2018-09-18T06:31:00.572Z] "GET /elasticsearch HTTP/1.1" 200 7065 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"",
          "url": "https://www.elastic.co/downloads/elasticsearch",
          "tags": [
            "success",
            "info"
          ],
          "geo": {
            "srcdest": "US:PH",
            "src": "US",
            "coordinates": {
              "lon": -124.1127917,
              "lat": 40.80338889
            },
            "dest": "PH"
          },
          "utc_time": "2022-12-13T06:31:00.572Z",
          "bytes": 7065,
          "machine": {
            "os": "ios",
            "ram": 12884901888
          },
          "response": 200,
          "clientip": "0.72.176.46",
          "host": "www.elastic.co",
          "event": {
            "dataset": "sample_web_logs"
          },
          "phpmemory": null,
          "timestamp": "2022-12-13T06:31:00.572Z"
        }
      },
  ...

这种转换可以更轻松地回答以下问题:

  • 与特定 IP 地址关联的最新日志事件是什么?

查找向服务器发送最多字节的客户端 IP

此示例使用 Web 日志示例数据集来查找每小时向服务器发送的字节数最多的客户端 IP。 该示例使用带有 top_metrics 聚合的数据 pivot 变换。

按时间字段上的日期直方图(date histogram)对数据进行分组,间隔为一小时。 在字节字段上使用 max 聚合来获取发送到服务器的最大数据量。 如果没有 max 聚合,API 调用仍会返回发送最多字节的客户端 IP,但不会返回它发送的字节数。 在 top_metrics 属性中,指定 clientip 和 geo.src,然后按 bytes 字段降序对它们进行排序。 转换返回发送数据量最大的 clientIP 和相应位置的 2 个字母的 ISO 代码。

POST _transform/_preview
{
  "source": {
    "index": "kibana_sample_data_logs"
  },
  "pivot": {
    "group_by": { 
      "timestamp": {
        "date_histogram": {
          "field": "timestamp",
          "fixed_interval": "1h"
        }
      }
    },
    "aggregations": {
      "bytes.max": { 
        "max": {
          "field": "bytes"
        }
      },
      "top": {
        "top_metrics": { 
          "metrics": [
            {
              "field": "clientip"
            },
            {
              "field": "geo.src"
            }
          ],
          "sort": {
            "bytes": "desc"
          }
        }
      }
    }
  }
}
  • 数据按时间字段的日期直方图分组,间隔为一小时。
  • 计算 bytes 字段的最大值。
  • 指定要返回的顶部文档的字段(clientip 和 geo.src)和排序方法(具有最高 bytes 值的文档)。

上面的 API 调用返回一个类似这样的响应:

{
  "preview" : [
    {
      "top" : {
        "clientip" : "223.87.60.27",
        "geo.src" : "IN"
      },
      "bytes" : {
        "max" : 6219
      },
      "timestamp" : "2021-04-25T00:00:00.000Z"
    },
    {
      "top" : {
        "clientip" : "99.74.118.237",
        "geo.src" : "LK"
      },
      "bytes" : {
        "max" : 14113
      },
      "timestamp" : "2021-04-25T03:00:00.000Z"
    },
    {
      "top" : {
        "clientip" : "218.148.135.12",
        "geo.src" : "BR"
      },
      "bytes" : {
        "max" : 4531
      },
      "timestamp" : "2021-04-25T04:00:00.000Z"
    },
    ...
  ]
}

tgcode

通过客户 ID 获取客户姓名和电子邮件地址

本示例使用电子商务样本数据集创建基于客户 ID 的以实体为中心的索引,并使用 top_metrics 聚合获取客户姓名和电子邮件地址。

按 customer_id 对数据进行分组,然后添加一个 top_metrics 聚合,其中 metrics 是 email、customer_first_name.keyword 和 custgcodetomer_last_name.keyword 字段。 按 order_date 以降序对 top_metrics 进行排序。 API 调用如下所示:

POST _transform/_preview
{
  "source": {
    "index": "kibana_sample_data_ecommerce"
  },
  "pivot": {
    "group_by": { 
      "customer_id": {
        "terms": {
          "field": "customer_id"
        }
      }
    },
    "aggregations": {
      "last": {
        "top_metrics": { 
          "metrics": [
            {
              "field": "email"
            },
            {
              "field": "customer_first_name.keyword"
            },
            {
              "field": "customer_last_name.keyword"
            }
          ],
          "sort": {
            "order_date": "desc"
          }
        }
      }
    }
  }
}

说明:

  • 数据按 customer_id 字段上的术语聚合进行分组。
  • 指定按订单日期降序返回的字段(电子邮件和姓名字段)。

API 返回类似于以下内容的响应:

{
  "preview" : [
    {
      "last" : {
        "customer_last_name.keyword" : "Long",
        "customer_first_name.keyword" : "Recip",
        "email" : "recip@long-family.zzz"
      },
      "customer_id" : "10"
    },
    {
      "last" : {
        "customer_last_name.keyword" : "Jackson",
        "customer_first_name.keyword" : "Fitzgerald",
        "email" : "fitzgerald@jackson-family.zzz"
      },
      "customer_id" : "11"
    },
    {
      "last" : {
        "customer_last_name.keyword" : "Cross",
        "customer_first_name.keyword" : "Brigitte",
        "email" : "brigitte@cross-family.zzz"
      },
      "customer_id" : "12"
    },
    ...
  ]
}

文章来源于互联网:Elasticsearch:transform 例子