Elasticsearch:将精确搜索与词干混合

2022年6月12日   |   by mebius

在构建搜索应用程序时,词干提取通常是必须的,因为希望 skiing 查询匹配包含 ski 或 skis 的文档。 但是如果用户想专门搜索 skiing 怎么办? 执行此操作的典型方法是使用 multi-field,以便以两种不同的方式索引相同的内容:

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "english_exact": {
          "tokenizer": "standard",
          "filter": [
            "lowercase"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "body": {
        "type": "text",
        "analyzer": "english",
        "fields": {
          "exact": {
      tgcode      "type": "text",
            "analyzer": "english_exact"
          }
        }
      }
    }
  }
}

在上面,我们通过 multi-filed 来实现对一个字段进行多种分词。如果大家对 englishstandard 分词器不是很熟的话,那么我们可以使用如下的方法来做测试:

GET _analyze
{
  "analyzer": "standard",
  "text": "Skiing and Skis"
}

在上面, 我们使用 standard 分词器。它的结果为:

{
  "tokens" : [
    {
      "token" : "skiing",
      "start_offset" : 0,
      "end_offset" : 6,
      "type" : "",
      "position" : 0
    },
    {
      "token" : "and",
      "start_offset" : 7,
      "end_offset" : 10,
      "type" : "",
      "position" : 1
    },
    {
      "token" : "skis",
      "start_offset" : 11,
      "end_offset" : 15,
      "type" : "",
      "position" : 2
    }
  ]
}

也就是说,它不提取词的词干(stem)。这对于 exact 匹配是非常适合的,比如我们想搜索 skiing,那么通过 standard 分词器,我们肯定是可以搜索到的。在下面,我们使用 english 分词器:

GET _analyze
{
  "analyzer": "english",
  "text": "Skiing and Skis"
}

上面的结果显示:

{
  "tokens" : [
    {
      "token" : "ski",
      "start_offset" : 0,
      "end_offset" : 6,
      "type" : "",
      "position" : 0
    },
    {
      "token" : "ski",
      "start_offset" : 11,
      "end_offset" : 15,
      "type" : "",
      "position" : 2
    }
  ]
}

也是就是无论是 skiing 或者是 kiis,它们被分词后的结果都是 ski,也就是它们的词干(stem)。这种对于我们的很多情形的搜索是非常有用的tgcode。

基于上面创建的索引 my_index,我们写入如下的文档:

PUT my_index/_doc/1
{
  "body": "Ski resort"
}

PUT my_index/_doc/2
{
  "body": "A pair of skis"
}

POST my_index/_refresh

我们接着进行如下的搜索:

GET my_index/_search?filter_path=**.hits
{
  "query": {
    "simple_query_string": {
      "fields": [ "body" ],
      "query": "ski"
    }
  }
}

由于 body 是采用 english 的分词器,那么很自然两个文档都可以被搜索到:

{
  "hits" : {
    "hits" : [
      {
        "_index" : "my_index",
        "_id" : "1",
        "_score" : 0.18232156,
        "_source" : {
          "body" : "Ski resort"
        }
      },
      {
        "_index" : "my_index",
        "_id" : "2",
        "_score" : 0.18232156,
        "_source" : {
          "body" : "A pair of skis"
        }
      }
    ]
  }
}

另一方面,在 body.exact 上搜索 ski 只会返回文档 1,因为 body.exact 的分词器不执行词干提取。

GET my_index/_search?filter_path=**.hits
{
  "query": {
    "simple_query_string": {
      "fields": [ "body.exact" ],
      "query": "ski"
    }
  }
}

上面搜素返回的结果为:

{
  "hits" : {
    "hits" : [
      {
        "_index" : "my_index",
        "_id" : "1",
        "_score" : 0.8025915,
        "_source" : {
          "body" : "Ski resort"
        }
      }
    ]
  }
}

这不是一件容易暴露给最终用户的事情,因为我们需要有一种方法来确定他们是否正在寻找精确匹配并相应地重定向到适当的字段。 另外,如果只有部分查询需要完全匹配,而其他部分仍应考虑词干,该怎么办?

幸运的是,query_string 和 simple_query_string 查询有一个特性可以解决这个问题:quote_field_suffix。 这告诉 Elasticsearch 出现在引号之间的单词将被重定向到不同的字段,见下文:

GET my_index/_search?filter_path=**.hits
{
  "query": {
    "simple_query_string": {
      "fields": [ "body" ],
      "quote_field_suffix": ".exact",
      "query": ""ski""
    }
  }
}
{
  "hits" : {
    "hits" : [
      {
        "_index" : "my_index",
        "_id" : "1",
        "_score" : 0.8025915,
        "_source" : {
          "body" : "Ski resort"
        }
      }
    ]
  }
}

在上面的例子中,由于 ski 在引号之间,由于quote_field_suffix 参数,它在 body.exact 字段上被搜索,所以只有文档 1 匹配。 这允许用户根据自己的喜好混合精确搜索和词干搜索。

我们也可以尝试如下的搜索:

GET my_index/_search?filter_path=**.hits
{
  "query": {
    "simple_query_string": {
      "fields": [ "body" ],
      "quote_field_suffix": ".exact",
      "query": ""ski" pair"
    }
  }
}

上面返回的结果为:

{
  "hits" : {
    "hits" : [
      {
        "_index" : "my_index",
    tgcode    "_id" : "1",
        "_score" : 0.8025915,
        "_source" : {
          "body" : "Ski resort"
        }
      },
      {
        "_index" : "my_index",
        "_id" : "2",
        "_score" : 0.6931471,
        "_source" : {
          "body" : "A pair of skis"
        }
      }
    ]
  }
}

由于 ski 含有引号,那么它在body.exact字段上被搜索,但是由于 pair 没有含有引号,它在 body 字段上进行搜索。

注意:如果在 quote_field_suffix 中传递的字段选择不存在,则搜索将回退到使用查询字符串的默认字段。

文章来源于互联网:Elasticsearch:将精确搜索与词干混合

Tags: