多值字段

对多值字段使用短语匹配时会发生奇怪的事。想象一下你索引这个文档:

  1. PUT /my_index/groups/1
  2. {
  3. "names": [ "John Abraham", "Lincoln Smith"]
  4. }

然后运行一个对 Abraham Lincoln 的短语查询:

  1. GET /my_index/groups/_search
  2. {
  3. "query": {
  4. "match_phrase": {
  5. "names": "Abraham Lincoln"
  6. }
  7. }
  8. }

令人惊讶的是, 即使 AbrahamLincolnnames 数组里属于两个不同的人名, 我们的文档也匹配了查询。 这一切的原因在Elasticsearch数组的索引方式。

在分析 John Abraham 的时候, 产生了如下信息:

  • Position 1: john
  • Position 2: abraham

然后在分析 Lincoln Smith 的时候, 产生了:

  • Position 3: lincoln
  • Position 4: smith

换句话说, Elasticsearch对以上数组分析生成了与分析单个字符串 John Abraham Lincoln Smith 一样几乎完全相同的语汇单元。 我们的查询示例寻找相邻的 lincolnabraham , 而且这两个词条确实存在,并且它们俩正好相邻, 所以这个查询匹配了。

幸运的是, 在这样的情况下有一种叫做 position_increment_gap 的简单的解决方案, 它在字段映射中配置。

  1. DELETE /my_index/groups/ <1>
  2. PUT /my_index/_mapping/groups <2>
  3. {
  4. "properties": {
  5. "names": {
  6. "type": "string",
  7. "position_increment_gap": 100
  8. }
  9. }
  10. }

<1> 首先删除映射 groups 以及这个类型内的所有文档。

<2> 然后创建一个有正确值的新的映射 groups

position_increment_gap 设置告诉 Elasticsearch 应该为数组中每个新元素增加当前词条 position 的指定值。 所以现在当我们再索引 names 数组时,会产生如下的结果:

  • Position 1: john
  • Position 2: abraham
  • Position 103: lincoln
  • Position 104: smith

现在我们的短语查询可能无法匹配该文档因为 abrahamlincoln 之间的距离为 100 。 为了匹配这个文档你必须添加值为 100 的 slop