ES分词
## 什么是分詞
```
把文本轉換為一個個的單詞,分詞稱之為analysis。es默認只對英文語句做分詞,中文不支持,每個中文字都會被拆分為獨立的個體。
```
## es內置分詞器
```
- standard:默認分詞,單詞會被拆分,大小會轉換為小寫。
- simple:按照非字母分詞。大寫轉為小寫。
- whitespace:按照空格分詞。忽略大小寫。
- stop:去除無意義單詞,比如the/a/an/is…
- keyword:不做分詞。把整個文本作為一個單獨的關鍵詞
```
## 分詞可用方案
```
分詞器 優勢 劣勢
Smart Chinese Analysis 官方插件 中文分詞效果慘不忍睹
IKAnalyzer 簡單易用,支持自定義詞典和遠程詞典 詞庫需要自行維護,不支持詞性識別
結巴分詞 新詞識別功能 不支持詞性識別
Ansj中文分詞 分詞精準度不錯,支持詞性識別 對標hanlp詞庫略少,學習成本高
Hanlp 目前詞庫最完善,支持的特性非常多
總結
- 上一篇: 归一化数字角频率_数字信号处理中的各种频
- 下一篇: android mp4硬解码器,andr