Elasticsearch配置ik中文分词器自定义词库
1.IK配置文件
在config目錄下:
IKAnalyzer.cfg.xml:配置自定義詞庫
main.dic:分詞器自帶的詞庫,索引會按照里面的詞創建
quantifier.dic:存放計量單位詞
suffix.dic:存放一些常用后綴
surname.dic:存放中文姓氏
stopword.dic:停用詞詞庫,分詞時直接忽略不創建索引
2.自定義詞庫
說說為什么要配置自定義詞庫吧,現在網上出現的新詞,如網紅,老鐵,點點關注。如果用戶用的新詞去做搜索條件,而ik自帶的詞庫里沒有,那么很可能搜索出來的結果不是自己想要的,或者根本就沒有數據,所以我們在做ES中文分詞器時,很有必要定義自己的一套詞庫,根據業務需求到ik的詞庫里面去創建自定義詞庫。
IKAnalyzer.cfg.xml配置內容如下:
我們只需要補充我們的新詞語到custom/mydict.dic如果需要配置多個自定義詞庫可以用分號;分割。
3.停用詞詞庫
如需添加停用詞(如:1-9,一到九,之間,中間等)添加到custom/ext_stopword.dic里
添加后保存退出,重啟ES服務,然后進行測試
注:如docker容器下操作
1.查看所有容器:
docker ps -a
2.進入es容器:
docker exec -it 9f56538b1ec1 /bin/bash
3.切換至root用戶:
su root
passwd:root
4.進入es配置:
cd elasticsearch-6.7.0/plugins/analysis-ik/config
5.配置自定義詞庫
vi mydict.dic
6.重啟容器,測試
總結
以上是生活随笔為你收集整理的Elasticsearch配置ik中文分词器自定义词库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python爬虫爬取wallpapers
- 下一篇: 【proteus】proteus界面介绍