當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

IK分词器实战

發布時間：2023/12/10 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 IK分词器实战小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

分詞器是專門處理分詞的組件，由三部分組成。

以上三部分是串行處理的關系，除Tokenizer只能一個外，其他兩個都可以多個。IK分詞器僅實現了Tokenizer

IK分詞器在是一款基于詞典和規則的中文分詞器。具有以下特性：

采用了特有的“正向迭代最細粒度切分算法“

支持細粒度和智能分詞兩種切分模式

智能分詞模式支持簡單的分詞排歧義處理和數量詞合并輸出

采用了多子處理器分析模式，支持：英文字母、數字、中文詞匯等分詞處理，兼容韓文、日文字符

IK內部有3個子分詞器（Segmenter），CJKSegmenter（中日韓文分詞器），CN_QuantifierSegmenter（中文數量詞分詞器），LetterSegmenter（英文分詞器）。

LetterSegmenter：從遇到第一個英文字符往后，直到碰到第一個非英文字符，這中間的所有字符則切分為一個英文單詞。

CN_QuantifierSegmenter：從遇到每一個中文數量詞，然后檢查該數量詞后一個字符是否為中文量詞（根據是否包含在中文量詞詞典中為判斷依據），如是，則分成一個詞，如否，則不是一個詞。

CJKSegmenter：處理邏輯較為復雜，整體思路是從字典樹中尋找匹配的詞

分詞裁決器IKArbitrator：只有在Smart模式才會生效，僅根據幾條可能是最佳的分詞實踐規則，并沒有用到任何概率模型，也不具有新詞發現的功能。

對應es的IK插件的ik_smart，會做最粗粒度的拆分。比如會將“中華人民共和國國歌”拆分為“中華人民共和國,國歌”，適合 Phrase 查詢。

對用es的插件ik_max_word: 會將文本做最細粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,中華人民,中華,華人,華，人民共和國,人民,人,民,共和國,共和,和,國國,國歌”，會窮盡各種可能的組合，適合 Term Query。

IK分詞的效果主要取決于詞庫，目前自帶主詞典擁有27萬左右的漢語單詞量。對于應用領域的不同，需要各類專業詞庫的支持。

es檢索的核心數據結構為倒排索引，分詞是否合理正確，直接影響數據的檢索結果，在自定義詞典及分詞器時，可以采取以下方式來驗證分詞的結果：

GET /_analyze {"analyzer": "ik_max_word","text": ["甲三"] }

當查詢詞在詞典中不存在時，會按字拆分
例如：在北–>在，北

當查詢詞在詞典中存在，且長度為兩個字時，有時拆分有時不拆分
例如：甲乙–>甲乙
聯通–>聯通，聯，通

當查詢詞在詞典中存在，且查詢詞的一部分也在詞典在中存在，則分別拆分
例如：甲乙丙丁–>甲乙丙丁，甲乙，丙丁
中國聯通–>中國聯通，中國，國聯，聯通，通（沒弄明白為啥這里聯通不拆成聯、通）

當查詢詞任意部分都不在詞典中存儲，則按字拆分

當查詢詞在詞典中不存在時，會按字拆分
例如：在北–>在，北

當查詢詞在詞典中存在，不做拆分
例如：甲乙–>甲乙
甲乙丙丁–>甲乙丙丁

當查詢詞任意部分都不在詞典中存儲，則按字拆分

依據上述規律，我們可以在寫入數據時使用ik_max_word，增加分詞數量，提高被命中幾率，在查詢數據時使用ik_smart，減少分詞數量，提升結果準確率，減少無關結果

使用es內置的token filter：length

POST _analyze {"text": "一中華人民共和國國歌","filter": [{"type": "length","min": "2"}],"tokenizer": "ik_smart" }

分詞結果中“一”被過濾掉，但對于某些查詢詞，例如“父與子”，該設置會導致無分詞結果

以上是生活随笔為你收集整理的IK分词器实战的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。