es（Elasticsearch）安装使用（03ik分词器安装篇）

背景

什么是分词

把文本转换为一个个的单词，分词称之为analysis。es默认只对英文语句做分词，中文不支持，每个中文字都会被拆分为独立的个体。

es 内置分词

standard：默认分词，单词会被拆分，大小会转换为小写。
simple：按照非字母分词。大写转为小写。
whitespace：按照空格分词。忽略大小写。
stop：去除无意义单词，比如the/a/an/is…
keyword：不做分词。把整个文本作为一个单独的关键词

文章推荐

es（Elasticsearch）安装使用（01es安装篇）_少年ing的博客-CSDN博客

es（Elasticsearch）客户端Kibana安装使用（02Kibana安装篇）_少年ing的博客-CSDN博客

es（Elasticsearch）安装使用（03ik分词器安装篇）_少年ing的博客-CSDN博客

es（Elasticsearch）客户端Elasticsearch-head安装使用（04Elasticsearch-head安装篇）_少年ing的博客-CSDN博客

版本声明

CenOS：7.5阿里云服务器关闭防火墙
JDK：1.8；
Elasticsearch：7.6.1；
Kibana：7.6.1；
IK：7.6.1；

1、ik下载地址

注意和要和es版本对应

Releases · medcl/elasticsearch-analysis-ik · GitHub

某网盘

链接：https://pan.baidu.com/s/1-ADPvSk9wt0cjPAMP9nYKw
提取码：k3yn

2.安装

2.1 使用 es用户在es安装目录plugins下创建ik目录

su es 切换es用户

mkdir ik

** 2.2 将下载ik压缩包上传ik目录并解压到该目录解压后删除压缩包负责启动有问题**

cd /usr/local/elasticsearch-7.6.1/plugins/ik

unzip elasticsearch-analysis-ik-7.6.1.zip

若报 bash: unzip: command not found

安装下 unzip

yum install -y unzip zip

** 2.3重启Elasticsearch**

在es 的bin目录先查询PID，然后杀死进程：

ps -ef | grep elasticsearch

启动es

cd /usr/local/elasticsearch-7.6.1/bin

./elasticsearch -d

启动ES之后，ES会自己加载IK插件，如果启动ES成功，说明IK安装成功：

重启Kibana

ES重启之后，ES的客户端

Kibana也应该重启

。

1、root用户或者es用户都可以

2、cd /usr/local/elasticsearch-7.6.1/kibana-7.6.1-linux-x86_64/bin

3、./kibana -d

2、测试分词效果

#默认
POST _analyze
{
"analyzer": "standard",
"text": "我是中国人"
}
#ik ik_smart 最少切分算法
POST _analyze
{
"analyzer":"ik_smart",
"text":"我是中国人"
}

#ik ik_max_word 最细粒度切分算法
POST _analyze
{
"analyzer":"ik_max_word",
"text":"我是中国人"
}

3、指定IK分词器作为默认分词器
ES的默认分词设置是standard，这个在中文分词时就比较尴尬了，会单字拆分，比如我搜索关键词“清华大学”，这时候会按“清”，“华”，“大”，“学”去分词，然后搜出来的都是些“清清的河水”，“中华儿女”，“地大物博”，“学而不思则罔”之类的莫名其妙的结果，这里我们就想把这个分词方式修改一下，于是呢，就想到了ik分词器，有两种ik_smart和ik_max_word。
ik_smart会将“清华大学”整个分为一个词，而ik_max_word会将“清华大学”分为“清华大学”，“清华”和“大学”，按需选其中之一就可以了。
修改默认分词方法(这里修改school_index索引的默认分词为：ik_max_word)：