jieba初步了解
http://www.gowhich.com/blog/147
jieba自帶詞典:dict.txt
一個(gè)詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最后為詞性(可省略),用空格隔開
例如:詞 頻率 詞性
一不注意 3 i
一不留神 3 i
一專多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龍門 3 i
?
這篇文檔介紹的比較詳細(xì):http://www.cnblogs.com/wangtao_20/p/3647240.html
關(guān)于中文分詞方法的了解:
?
一、基于詞典分詞
?
機(jī)械分詞:
按照長(zhǎng)度優(yōu)先級(jí)不同,分為最大匹配與最小匹配
按匹配方向不同,分為正向匹配與逆向匹配
缺點(diǎn):缺乏歧義分析處理,切分精度低
?
基于規(guī)則分詞方式:
基于統(tǒng)計(jì)分詞方式:
以上兩者可以依賴庫也可以不依賴庫,與詞典分詞結(jié)合起來用。難以嚴(yán)格區(qū)分
實(shí)踐中,經(jīng)常以正向匹配方式為主。
依賴于詞典的方法,缺點(diǎn)是:沒有在詞典中出現(xiàn)的詞語,就沒法作為關(guān)鍵詞進(jìn)行切分(識(shí)別新詞一般使用統(tǒng)計(jì)法)。
?
二、基于詞頻統(tǒng)計(jì)分詞
?
將文章中任意兩個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),次數(shù)越高的就可能是一個(gè)詞。
實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。
?
三、基于規(guī)則分詞
?
即基于理解分詞
規(guī)則法,目前常見的是CRF(Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field)。具體的實(shí)現(xiàn)可參考http://nlp.stanford.edu/software/segmenter.shtml
基于統(tǒng)計(jì)和基于規(guī)則的分詞法是非詞典,也就是可以不需要詞典的(實(shí)際中是多種方式結(jié)合,所以會(huì)與詞典結(jié)合)。
基于詞典的和不基于詞典的兩類分詞法,有他們各自的優(yōu)缺點(diǎn)
基于詞典的,部署比較簡(jiǎn)單,只需要安裝詞庫即可。實(shí)現(xiàn)也簡(jiǎn)單,對(duì)比查找詞語庫的思路。
缺點(diǎn)是,分詞精度有限,對(duì)于詞典里沒有的詞語識(shí)別較差。
非詞典分詞法,優(yōu)點(diǎn)是,對(duì)于出現(xiàn)過的詞語識(shí)別效果較好,能夠根據(jù)使用領(lǐng)域達(dá)到較高的分詞精度。
缺點(diǎn):實(shí)現(xiàn)比較復(fù)雜。前期需要做大量的工作。
?
現(xiàn)實(shí)中,沒有一種分詞方法能夠滿足所有需求。所以一般都是多種分詞方法結(jié)合起來使用,相互彌補(bǔ)。
現(xiàn)實(shí)中的使用詞典來存儲(chǔ)大部分關(guān)鍵詞,而識(shí)別新詞使用統(tǒng)計(jì)法。最后就是詞典+統(tǒng)計(jì)法結(jié)合起來使用。
既能達(dá)到分詞精準(zhǔn),又能分詞速度快,往往是比較理想的狀態(tài)。但要求精準(zhǔn)就會(huì)存在性能消耗。搜索引擎需要在分詞速度與分詞準(zhǔn)確度方面求得平衡。
中文分詞一直要解決的兩大技術(shù)難點(diǎn)為:歧義識(shí)別和新詞識(shí)別(新的人名、地名等)
轉(zhuǎn)載于:https://www.cnblogs.com/lwhp/p/6079227.html
總結(jié)
- 上一篇: Android开发7:简单的数据存储(使
- 下一篇: quantum theory