初识ES-IK分词器的拓展和停用词典
生活随笔
收集整理的這篇文章主要介紹了
初识ES-IK分词器的拓展和停用词典
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
擴展詞詞典
?
隨著互聯網的發展,“造詞運動”也越發的頻繁。出現了很多新的詞語,在原有的詞匯列表中并不存在。比如:“奧力給”等。
所以我們的詞匯也需要不斷的更新,IK分詞器提供了擴展詞匯的功能。
1)打開IK分詞器config目錄:
2)在IKAnalyzer.cfg.xml配置文件內容添加:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴展配置</comment><!--用戶可以在這里配置自己的擴展字典 *** 添加擴展詞典--><entry key="ext_dict">ext.dic</entry> </properties>3)新建一個 ext.dic,可以參考config目錄下復制一個配置文件進行修改
奧力給4)重啟elasticsearch
docker restart es# 查看 日志 docker logs -f elasticsearch注意當前文件的編碼必須是 UTF-8 格式,嚴禁使用Windows記事本編輯
停用詞詞典
在互聯網項目中,在網絡間傳輸的速度很快,所以很多語言是不允許在網絡上傳遞的,如:關于宗教、政治等敏感詞語,那么我們在搜索時也應該忽略當前詞匯。
IK分詞器也提供了強大的停用詞功能,讓我們在索引時就直接忽略當前的停用詞匯表中的內容。
1)IKAnalyzer.cfg.xml配置文件內容添加:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴展配置</comment><!--用戶可以在這里配置自己的擴展字典--><entry key="ext_dict">ext.dic</entry><!--用戶可以在這里配置自己的擴展停止詞字典 *** 添加停用詞詞典--><entry key="ext_stopwords">stopword.dic</entry> </properties>3)在 stopword.dic 添加停用詞
4)重啟elasticsearch
# 重啟服務 docker restart elasticsearch docker restart kibana# 查看 日志 docker logs -f elasticsearch日志中已經成功加載stopword.dic配置文件
注意當前文件的編碼必須是 UTF-8 格式,嚴禁使用Windows記事本編輯
總結
以上是生活随笔為你收集整理的初识ES-IK分词器的拓展和停用词典的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringSecurity加密认证
- 下一篇: 操作索引库-mapping属性