微服务开发系列第八篇：Elasticsearch网站首页 技术杂谈

微服务开发系列第八篇：Elasticsearch

阳光倾洒 2024-07-01 11:59:10

简介微服务开发系列第八篇：Elasticsearch

总概

A、技术栈

开发语言：Java 1.8
数据库：MySQL、Redis、MongoDB、Elasticsearch
微服务框架：Spring Cloud Alibaba
微服务网关：Spring Cloud Gateway
服务注册和配置中心：Nacos
分布式事务：Seata
链路追踪框架：Sleuth
服务降级与熔断：Sentinel
ORM框架：MyBatis-Plus
分布式任务调度平台：XXL-JOB
消息中间件：RocketMQ
分布式锁：Redisson
权限：OAuth2
DevOps：Jenkins、Docker、K8S

B、本节实现目标

商品、订单数据存入ES，用于搜索
RestHighLevelClient、ElasticsearchRestTemplate两种方式实现ES搜索

一、Elasticsearch安装

供参考：

二、ES分词处理器

2.1 Elasticsearch分词

分词分为读时分词和写时分词。

2.1.1 读时分词

读时分词发生在用户查询时，ES 会即时地对用户输入的关键词进行分词，分词结果只存在内存中，当查询结束时，分词结果也会随即消失。

2.1.2 写时分词

写时分词发生在文档写入时，ES 会对文档进行分词后，将结果存入倒排索引，该部分最终会以文件的形式存储于磁盘上，不会因查询结束或者ES重启而丢失。

写时分词器需要在Mapping中指定，而且一经指定就不能再修改，若要修改必须新建索引，但Elasticsearch可以用Put Mapping API新增字段。

2.2 分词处理器

分词一般在ES中有分词器处理，英文为Analyzer，它决定了分词的规则，ES默认自带了很多分词器，如：Standard、english、Keyword、Whitespace等等。默认的分词器为Standard，通过它们各自的功能可组合成你想要的分词规则。分词器具体详情可查看官网：分词器

另外，在常用的中文分词器、拼音分词器、繁简体转换插件。国内用的就多的分别是：

2.3 分词器插件安装

下载与ES对应版本的中文分词器。将解压后的后的文件夹放入ES根目录下的plugins/ik目录下(ik目录要手动创建)、plugins/pinyin、plugins/stconvert，重启ES即可使用。

插件

三、ES Java API

3.1 Elasticsearch三种Java客户端

Elasticsearch 存在三种Java客户端
1、Transport Client
2、Java Low Level Rest Client (低级rest客户端)
3、Java High Level Rest Client (高级rest客户端)

这三者的区别是：
1、Transport Client 没有使用RESTful风格的接口，而是二进制的方式传输数据。
2、Elasticsearch 官方推出了Java Low Level Rest Client，它支持RESTful。但是缺点是Transport Client的使用者把代码迁移到Java Low Level Rest Client的工作量比较大。
3、Elasticsearch 官方推出Java High Level Rest Client ，它是基于Java Low Level Rest Client的封装，并且API接收参数和返回值和Transport Client是一样的，使得代码迁移变得容易并且支持了RESTful的风格，兼容了这两种客户端的优点。强烈建议ES 5 及其以后的版本使用Java High Level Rest Client。

3.2 Spring Data Elasticsearch

Spring Data Elasticsearch是Spring Data项目下的一个子模块。查看 Spring Data的官网：http://projects.spring.io/spring-data/

Spring Data 的使命是给各种数据访问提供统一的编程接口，不管是关系型数据库（如MySQL），还是非关系数据库（如Redis），或者类似Elasticsearch这样的索引数据库。从而简化开发人员的代码，提高开发效率。

Spring Data Elasticsearch包含了Java High Level Rest Client，从maven依赖包里就可以证实：

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    <version>3.0.5</version>
</dependency>

spring-boot-starter-data-elasticsearch

四、代码实现

4.1 新建mall-search服务

新建mall-search服务，该服务专门用户搜索功能，包括提供订单搜索、商品搜索、用户搜索等等。

4.2 maven加ES依赖包

我们使用Spring Data Elasticsearch，因此引入spring-boot-starter-data-elasticsearch

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    <version>3.0.5</version>
</dependency>

由于ES API只会在mall-search服务中使用，因此该maven依赖只在mall-search服务的pom.xml中加入，而不是在mall-pom项目中全局配置

pom.xml

4.3 Elasticsearch配置信息

旧版Elasticsearch配置信息都是在application.yml里配置的，但如果用的是新版Elasticsearch，这样配置会提示已过时，新版我们需要用配置类。

@Configuration
@EnableElasticsearchRepositories
public class EsRestClientConfig extends AbstractElasticsearchConfiguration {

    @Value("${es.url}")
    private String esUrl;

    @Override
    @Bean
    public RestHighLevelClient elasticsearchClient() {
        final ClientConfiguration clientConfiguration = ClientConfiguration.builder()
                .connectedTo(esUrl)
                .build();

        return RestClients.create(clientConfiguration).rest();
    }
}

ES连接地址我们在Nacos配置(开发、测试、生产都不一样)，由于ES连接地址只有我们mall-search服务需要用到，因此该配置项最好不配置在common.yml里，而是新建一个专门给mall-search服务用的配置文件，在Nacos上新建一个yml配置文件，名字(Data ID)要与我们在Nacos上注册的服务名保持一致，不然无法mall-search无法读取到该配置文件的配置内容。

mall-search.yml

配置列表

4.4 两种实现方式

本项目提供了两种实现方式，分别为：RestHighLevelClient、ElasticsearchRestTemplate，分别放在client、template包下，如下图：

两种实现方式

两种方式，本人更推荐使用client的方式，个人感觉client API更友好。

4.4.1 RestHighLevelClient实现方式

使用该方式，文档对象只是一个普通的Java对象，没有任何ES的相关注解

@Data
public class ProductDoc {

    @ApiModelProperty(value = "ID")
    private String id;

    @ApiModelProperty("产品名称")
    private String productName;

    @ApiModelProperty("分类")
    private String category;

    @ApiModelProperty("品牌")
    private String brand;

    @ApiModelProperty("产品详情描述")
    private String remark;

    @ApiModelProperty(value = "地理位置")
    private GeoPoint location;
}

创建index时也提供了两种方式：

XContentBuilder
json文件格式

推荐使用json文件格式的方式，理由有二，一是json文件格式阅读修改更直观，二是json文件里的配置信息可以直接在kibana控制台执行进行调试。

4.4.1.1 XContentBuilder方式

EsClientSetting

@Slf4j
@Component
public class EsClientSetting {

    /**
     * 创建索引setting
     * <p>
     * ngram分词器配置
     * ngram：英文单词按字母分词
     * field("filter","lowercase")：大小写兼容搜索
     * <p>
     * index.max_ngram_diff: 允许min_gram、max_gram的差值
     * https://www.elastic.co/guide/en/elasticsearch/reference/6.8/analysis-ngram-tokenizer.html
     * <p>
     * normalizer:解决keyword区分大小写
     * https://www.elastic.co/guide/en/elasticsearch/reference/6.0/normalizer.html
     * <p>
     * 拼音搜索
     * https://github.com/medcl/elasticsearch-analysis-pinyin
     * <p>
     * 简体繁华转换
     * https://github.com/medcl/elasticsearch-analysis-stconvert
     * <p>
     * 样例
     * https://blog.csdn.net/qq_39211866/article/details/85178707
     *
     * @return
     */
    public XContentBuilder packageSetting() {
        XContentBuilder setting = null;
        try {
            setting = XContentFactory.jsonBuilder()
                    .startObject()
                        .field("index.max_ngram_diff", "6")
                        .startObject("analysis")
                            .startObject("filter")
                                .startObject("edge_ngram_filter")
                                    .field("type", "edge_ngram")
                                    .field("min_gram", "1")
                                    .field("max_gram", "50")
                                .endObject()

                                .startObject("pinyin_edge_ngram_filter")
                                    .field("type", "edge_ngram")
                                    .field("min_gram", 1)
                                    .field("max_gram", 50)
                                .endObject()

                                //简拼
                                .startObject("pinyin_simple_filter")
                                    .field("type", "pinyin")
                                    .field("keep_first_letter", true)
                                    .field("keep_separate_first_letter", false)
                                    .field("keep_full_pinyin", false)
                                    .field("keep_original", false)
                                    .field("limit_first_letter_length", 50)
                                    .field("lowercase", true)
                                .endObject()

                                //全拼
                                .startObject("pinyin_full_filter")
                                    .field("type", "pinyin")
                                    .field("keep_first_letter", false)
                                    .field("keep_separate_first_letter", false)
                                    .field("keep_full_pinyin", true)
                                    .field("keep_original", false)
                                    .field("limit_first_letter_length", 50)
                                    .field("lowercase", true)
                                .endObject()

                            .endObject()

                            //简2繁
                            .startObject("char_filter")
                                .startObject("tsconvert")
                                    .field("type", "stconvert")
                                    .field("convert_type", "t2s")
                                .endObject()
                            .endObject()

                            .startObject("analyzer")
                                //模糊搜索、忽略大小写(按字符切分)
                                .startObject("ngram")
                                    .field("tokenizer", "my_tokenizer")
                                    .field("filter", "lowercase")
                                .endObject()

                                //ik+简体、繁体转换(ik最小切分)-用于查询关键字分词
                                .startObject("ikSmartAnalyzer")
                                    .field("type", "custom")
                                    .field("tokenizer", "ik_smart")
                                    .field("char_filter", "tsconvert")
                                .endObject()

                                //ik+简体、繁体转换(ik最大切分)-用于文档存储
                                .startObject("ikMaxAnalyzer")
                                    .field("type", "custom")
                                    .field("tokenizer", "ik_max_word")
                                    .field("char_filter", "tsconvert")
                                .endObject()

                                //简拼搜索
                                .startObject("pinyinSimpleIndexAnalyzer")
                                    .field("type", "custom")
                                    .field("tokenizer", "keyword")
                                    .array("filter", "pinyin_simple_filter", "pinyin_edge_ngram_filter", "lowercase")
                                .endObject()

                                //全拼搜索
                                .startObject("pinyinFullIndexAnalyzer")
                                    .field("type", "custom")
                                    .field("tokenizer", "keyword")
                                    .array("filter", "pinyin_full_filter", "lowercase")
                                .endObject()
                            .endObject()

                            .startObject("tokenizer")
                                .startObject("my_tokenizer")
                                    .field("type", "ngram")
                                    .field("min_gram", "1")
                                    .field("max_gram", "6")
                                .endObject()
                            .endObject()

                            .startObject("normalizer")
                                .startObject("lowercase")
                                    .field("type", "custom")
                                    .field("filter", "lowercase")
                                .endObject()
                            .endObject()
                        .endObject()
                    .endObject();
        } catch (Exception e) {
            log.error("setting构建失败");
            e.printStackTrace();
        }

        BytesReference bytes = BytesReference.bytes(setting);
        String json = bytes.utf8ToString();
        log.info("settingJson={}",json);

        return setting;
    }
}

ProductDocMapping

@Slf4j
@Component
public class ProductDocMapping {

    public XContentBuilder packageMapping() {
        XContentBuilder mapping = null;
        try {
            //创建索引Mapping
            mapping = XContentFactory.jsonBuilder()
                    .startObject()
                        .field("dynamic", true)
                        .startObject("properties")
                            .startObject("id")
                                .field("type", "keyword")
                            .endObject()

                            //分类(关键字)
                            .startObject("category")
                                .field("type", "keyword")
                            .endObject()

                            //品牌(关键字)
                            .startObject("brand")
                                .field("type", "keyword")
                            .endObject()

                            //产品名称(模糊搜索)
                            .startObject("productName")
                                .field("type", "text")
                                .field("analyzer", "ngram")
                                .field("search_analyzer", "ikSmartAnalyzer")
                                .startObject("fields")
                                    .startObject("pinyin")
                                        .field("type", "text")
                                        .field("index", true)
                                        .field("analyzer", "pinyinFullIndexAnalyzer")
                                    .endObject()
                                .endObject()
                            .endObject()

                            //产品详情描述(分词搜索)
                            .startObject("remark")
                                .field("type", "text")
                                .field("analyzer", "ikMaxAnalyzer")
                                .field("search_analyzer", "ikSmartAnalyzer")
                                .startObject("fields")
                                    .startObject("pinyin")
                                        .field("type", "text")
                                        .field("index", true)
                                        .field("analyzer", "pinyinFullIndexAnalyzer")
                                    .endObject()
                                .endObject()
                            .endObject()

                            //经纬度
                            .startObject("location")
                                .field("type", "geo_point")
                            .endObject()

                        .endObject()
                    .endObject();
        } catch (Exception e) {
            log.error("packageMapping失败");
            e.printStackTrace();
        }

        BytesReference bytes = BytesReference.bytes(mapping);
        String json = bytes.utf8ToString();
        log.info("ProductDocMapping={}",json);

        return mapping;
    }
}

创建代码：

    @Override
    public boolean createIndex() {
        return esClientDdlTool.createIndex(IndexNameConstants.PRODUCT_DOC, productDocMapping.packageMapping());
    }

    public boolean createIndex(String indexName, XContentBuilder mapping) {
        CreateIndexRequest request = buildCreateIndexRequest(indexName);
        request.settings(esClientSetting.packageSetting());
        request.mapping(mapping);
        return doCreateIndex(request);
    }

4.4.1.2 json文件格式

common-setting.json

{
  "index.max_ngram_diff": "6",
  "analysis": {
    "filter": {
      "edge_ngram_filter": {
        "type": "edge_ngram",
        "min_gram": "1",
        "max_gram": "50"
      },
      "pinyin_edge_ngram_filter": {
        "type": "edge_ngram",
        "min_gram": 1,
        "max_gram": 50
      },
      "pinyin_simple_filter": {
        "type": "pinyin",
        "keep_first_letter": true,
        "keep_separate_first_letter": false,
        "keep_full_pinyin": false,
        "keep_original": false,
        "limit_first_letter_length": 50,
        "lowercase": true
      },
      "pinyin_full_filter": {
        "type": "pinyin",
        "keep_first_letter": false,
        "keep_separate_first_letter": false,
        "keep_full_pinyin": true,
        "keep_original": false,
        "limit_first_letter_length": 50,
        "lowercase": true
      }
    },
    "char_filter": {
      "tsconvert": {
        "type": "stconvert",
        "convert_type": "t2s"
      }
    },
    "analyzer": {
      "ngram": {
        "tokenizer": "my_tokenizer",
        "filter": "lowercase"
      },
      "ikSmartAnalyzer": {
        "type": "custom",
        "tokenizer": "ik_smart",
        "char_filter": "tsconvert"
      },
      "ikMaxAnalyzer": {
        "type": "custom",
        "tokenizer": "ik_max_word",
        "char_filter": "tsconvert"
      },
      "pinyinSimpleIndexAnalyzer": {
        "type": "custom",
        "tokenizer": "keyword",
        "filter": [
          "pinyin_simple_filter",
          "pinyin_edge_ngram_filter",
          "lowercase"
        ]
      },
      "pinyinFullIndexAnalyzer": {
        "type": "custom",
        "tokenizer": "keyword",
        "filter": [
          "pinyin_full_filter",
          "lowercase"
        ]
      }
    },
    "tokenizer": {
      "my_tokenizer": {
        "type": "ngram",
        "min_gram": "1",
        "max_gram": "6"
      }
    },
    "normalizer": {
      "lowercase": {
        "type": "custom",
        "filter": "lowercase"
      }
    }
  }
}

product-mapping.json

{
  "dynamic": true,
  "properties": {
    "id": {
      "type": "keyword"
    },
    "category": {
      "type": "keyword"
    },
    "brand": {
      "type": "keyword"
    },
    "productName": {
      "type": "text",
      "analyzer": "ngram",
      "search_analyzer": "ikSmartAnalyzer",
      "fields": {
        "pinyin": {
          "type": "text",
          "index": true,
          "analyzer": "pinyinFullIndexAnalyzer"
        }
      }
    },
    "remark": {
      "type": "text",
      "analyzer": "ikMaxAnalyzer",
      "search_analyzer": "ikSmartAnalyzer",
      "fields": {
        "pinyin": {
          "type": "text",
          "index": true,
          "analyzer": "pinyinFullIndexAnalyzer"
        }
      }
    },
    "location": {
      "type": "geo_point"
    }
  }
}

创建代码：

   @Override
    public boolean createIndexByJson() {
        return esClientDdlTool.createIndexByJson(IndexNameConstants.PRODUCT_DOC, "/json/product-mapping.json");
    }

    public boolean createIndexByJson(String indexName, String mappingPath) {
        CreateIndexRequest request = buildCreateIndexRequest(indexName);
        String settings = ResourceUtil.readFileFromClasspath("/json/common-setting.json");
        String mapping = ResourceUtil.readFileFromClasspath(mappingPath);

        request.settings(settings, XContentType.JSON);
        request.mapping(mapping, XContentType.JSON);
        return doCreateIndex(request);
    }

其他实现，可查看本项目源代码的client包。

4.4.2 ElasticsearchRestTemplate实现方式

使用该方式，有一个巨坑需要注意，我们在字段上使用@Field注解定义字段类型，analyzer都是无效的，如下代码：

    @Field(index = false, type = FieldType.Keyword)
    @ApiModelProperty("订单号")
    private String orderNo;

我们想将orderNo定义为Keyword类型，但ES还是将orderNo推断并定义成了text类型。

SpringDataElasticsearch版本变动频繁，有很多方法标记为过时，ElasticsearchRestTemplate不读@Filed注解，所以你在@Field里面写再多代码也没用。

ElasticsearchRestTemplate在创建索引的时候不读@Mapping，也就是需要两步才能创建完整的索引：

创建索引
更新字段mapping。

ElasticsearchRestTemplate 创建的索引名只读@Document注解，所以必须包含@Document注解。

文档对象：

/**
 * @description 订单
 *
 * 提示：ElasticsearchRestTemplate不读@Filed注解，所以你在@Field里面写再多代码也没用
 * 参考：https://blog.csdn.net/QQ401476683/article/details/121422427
 */
@Data
@Setting(settingPath = "/json/common-setting.json")
@Mapping(mappingPath = "/json/order-mapping.json")
@Document(indexName = "order_doc", shards = 1, replicas = 0)
public class OrderDoc {

    //@Id
    @ApiModelProperty(value = "ID")
    private String id;

    //@Field(index = false, type = FieldType.Keyword)
    @ApiModelProperty("订单号")
    private String orderNo;

    //@Field(type = FieldType.Text, analyzer = "ik_max_word")
    @ApiModelProperty("产品名称")
    private String productName;

}

创建index

@Slf4j
@Component
public class EsTemplateDdlTool {

    @Resource
    private ElasticsearchRestTemplate elasticsearchRestTemplate;

    public boolean createIndex(Class<?> clazz) {
        IndexOperations indexOperations = elasticsearchRestTemplate.indexOps(clazz);
        indexOperations.create();
        Document document = indexOperations.createMapping(clazz);
        indexOperations.putMapping(document);
        indexOperations.getSettings();
        return true;
    }
}

mapping：

{
  "dynamic": true,
  "properties": {
    "id": {
      "type": "keyword"
    },
    "orderNo": {
      "type": "keyword"
    },
    "productName": {
      "type": "text",
      "fields": {
        "pinyin": {
          "type": "text",
          "analyzer": "pinyinFullIndexAnalyzer"
        }
      },
      "analyzer": "ngram",
      "search_analyzer": "ikSmartAnalyzer"
    }
  }
}

setting：

{
  "index.max_ngram_diff": "6",
  "analysis": {
    "filter": {
      "edge_ngram_filter": {
        "type": "edge_ngram",
        "min_gram": "1",
        "max_gram": "50"
      },
      "pinyin_edge_ngram_filter": {
        "type": "edge_ngram",
        "min_gram": 1,
        "max_gram": 50
      },
      "pinyin_simple_filter": {
        "type": "pinyin",
        "keep_first_letter": true,
        "keep_separate_first_letter": false,
        "keep_full_pinyin": false,
        "keep_original": false,
        "limit_first_letter_length": 50,
        "lowercase": true
      },
      "pinyin_full_filter": {
        "type": "pinyin",
        "keep_first_letter": false,
        "keep_separate_first_letter": false,
        "keep_full_pinyin": true,
        "keep_original": false,
        "limit_first_letter_length": 50,
        "lowercase": true
      }
    },
    "char_filter": {
      "tsconvert": {
        "type": "stconvert",
        "convert_type": "t2s"
      }
    },
    "analyzer": {
      "ngram": {
        "tokenizer": "my_tokenizer",
        "filter": "lowercase"
      },
      "ikSmartAnalyzer": {
        "type": "custom",
        "tokenizer": "ik_smart",
        "char_filter": "tsconvert"
      },
      "ikMaxAnalyzer": {
        "type": "custom",
        "tokenizer": "ik_max_word",
        "char_filter": "tsconvert"
      },
      "pinyinSimpleIndexAnalyzer": {
        "type": "custom",
        "tokenizer": "keyword",
        "filter": [
          "pinyin_simple_filter",
          "pinyin_edge_ngram_filter",
          "lowercase"
        ]
      },
      "pinyinFullIndexAnalyzer": {
        "type": "custom",
        "tokenizer": "keyword",
        "filter": [
          "pinyin_full_filter",
          "lowercase"
        ]
      }
    },
    "tokenizer": {
      "my_tokenizer": {
        "type": "ngram",
        "min_gram": "1",
        "max_gram": "6"
      }
    },
    "normalizer": {
      "lowercase": {
        "type": "custom",
        "filter": "lowercase"
      }
    }
  }
}