paoding 中文分词学习
因為畢業設計需要用到中文分詞這個功能,自己寫分詞軟件?簡直是天方夜譚。
查了一下比較通用的分詞軟件,最后選擇了paoding中文分詞,理由看圖片:
僅支持java語言,作為一個java愛好者,有什么比這句話更有誘惑的呢。
俗話說:萬事開頭難。第一步當然是先現在開發包了,下載地址:點擊打開鏈接
下載之后,下一步就是去閱讀開發文檔了。于是,果斷淚奔了!
有這么簡陋的開發文檔嗎!!!能再簡陋點嗎!!!好吧,忍了!
還好上面還是有“效果體驗”和“開始使用”兩部分的文檔。
先體驗一下
效果還行吧~~
于是就開始使用
原來要設置一個詞庫,瞅瞅下載的開發包,里面有 dic 目錄隨便打開一個文件:
原來是這樣子的。
大致明白了,庖丁是根據這些庫里面的詞組,進行對中文的分詞的。按照開發文檔設置好環境變量,把example包下面的例子拷貝到自己新建的項目中,根據提示,導入需要的包:
paoding依賴的是lucene,所以lucene的jar包要導入,logging的jar包主要負責日志生成,junit復測單元測試。
在paoding的開發包里面的lib目錄下面,有兩個spring的jar包,根據開發文檔目錄(因為只有目錄沒內容)推測,這個是用來支持spring的,暫時不用。
然后運行,結果報錯!錯誤提醒說我沒有設置PAODING_IDC_HOME,我明明設置了啊!重新搞了很多次,依舊不行。沒辦法了問google老師吧,查了半天,原來是開發文檔搞錯了
PAODING_DIC_HOME的變量值少個'/',應該是 E:/data/paoding/dic/ ?
不知道是哪個部分責任的寫的開發文檔。google環境變量的同時也找到了另一種方法,根據環境變量報錯提示,發現還有另一種方法設置paoding_dic_home。
paoding-analysis.jar ?包里面有個文件paoding-dic-home.properties
把里面的修改為下面的
#values are "system-env" or "this"; #if value is "this" , using the paoding.dic.home as dicHome if configed! paoding.dic.home.config-fisrt=this#dictionary home (directory) #"classpath:xxx" means dictionary home is in classpath. #e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory paoding.dic.home=E:/paoding/dic/#seconds for dic modification detection #paoding.dic.detector.interval=60 里面的英文就不需要翻譯了,修改之后就可不修改系統的環境變量了。
然后就可以運行example里面的例子了:
下一步就是研究具體怎么使用paoding分詞了。
-------------------------------------------------------------------------------------------------------------------------------------------------------
自己把自己的這個demo和paoding的開發包放在csdn了,供大家免積分下載,共同交流;點擊打開鏈接
------------------------------------------2013年4月25日17:13:24 補充----------------------------------------------------------
上面是在公司電腦弄得,今天在家里電腦又搞了一次,發現關于PAODING_IDC_HOME總是出現各種問題,如果用電腦的環境變量,貌似不用加最后的"/"而且不區分“\”和“/”……而且每次設置之后貌似eclipse不能檢測到,必須重啟。搞了半天也沒弄明白怎么回事。
最后建議不適用環境變量設置,配置文件中設置,文件夾符合要用“/”最后的一個“/”貌似加不加無所謂。
現在在糾結paoding的自定義詞庫。
總結
以上是生活随笔為你收集整理的paoding 中文分词学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CMS垃圾收集器和G1垃圾收集器
- 下一篇: 内容营销的思维方式 阿胜说