Hanlp中自定义词典的配置、引用以及问题解决
生活随笔
收集整理的這篇文章主要介紹了
Hanlp中自定义词典的配置、引用以及问题解决
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 如何閱讀本文?
- Hanlp用戶自定義詞典引用簡介
- 操作步驟
- 環境創建
- 編輯詞典文件
- 將用戶自定義詞典路徑加入配置文件
- 刪除緩存文件
如何閱讀本文?
Hanlp用戶自定義詞典引用簡介
考完六級的我回來了~
在之前的文章中,提到了Hanlp用戶自定義詞典的作用和詳細信息,傳送門:Hanlp之理解用戶自定義詞典(java版本)那篇文章的源代碼分析還沒寫
光說不練假把式,今天我們一步一步來配置一個自定義詞典并在分詞中使用它;(Java版本)
操作步驟
環境創建
至此,我們就將環境創建好了。
編輯詞典文件
我們知道了詞典內部數據的組織方式,我們也要按照這個方式來進行加載,在應用時我們經常通過流操作來寫入數據,由于這次演示的數據量比較小,我們直接輸入。
將用戶自定義詞典路徑加入配置文件
(1)#本配置文件中的路徑的根目錄,根目錄+其他路徑=完整路徑(支持相對路徑,請參考:https://github.com/hankcs/HanLP/pull/254)
#Windows用戶請注意,路徑分隔符統一使用/
(2)#自定義詞典路徑,用;隔開多個自定義詞典,空格開頭表示在同一個目錄,使用“文件名 詞性”形式則表示這個詞典的詞性默認是該詞性。優先級遞減。
首先確定根目錄,根目錄是data目錄的父目錄;
然后將詞典移動至父目錄下的任意一個位置(創建時就在請忽略此步);
在CustomDictionaryPath后追加字典位置,值為絕對路徑-root路徑,比如我的詞典文件路徑是 F:\java學習\Hanlp\data\dictionary\custom\我的詞典.txt,而root是F:\java學習\Hanlp\,所以我應該在最后寫入data\dictionary\custom\我的詞典.txt;
如果創建的詞典文件和已有的詞典在一個目錄,在上一目錄分號后輸入一個空格,直接追加文件名稱即可
刪除緩存文件
在配置完畢后,我們一定要刪除之前加載字典時產生的緩存文件,比如下圖中的CustomDictionary.txt.bin文件就是上次產生的緩存文件,我們將他刪除;
總結
以上是生活随笔為你收集整理的Hanlp中自定义词典的配置、引用以及问题解决的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【剑指offer】面试题24:反转链表(
- 下一篇: 一元多项式的建立及加减