jieba中文分词
序言
jieba是目前最好的Python中文分詞組件,它主要有以下3種特性:
- 支持3種分詞模式:精確模式、全模式、搜索引擎模式
- 支持繁體字
- 支持自定義詞典
分詞
可使用jieba.cut和jieba.cut_for_search方法進行分詞,兩者所返回的結果都是一個可迭代的generator,可使用for循環來獲得分詞后得到的每一個詞語(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回list。其中:
- jieba.cut和jieba.lcut接受3個參數:
- 需要分詞的字符串(unicode或UTF-8字符串、GBK字符串)
- cut_all參數:是否使用全模式,默認值為False
- HMM參數:用來控制是否使用HMM模型,默認值為True
- jieba.cut_for_search和jieba.lcut_for_search接受2個參數:
- 需要分詞的字符串(unicode或UTF-8字符串、GBK字符串)
- HMM參數:用來控制是否使用HMM模型,默認值為True
盡量不要使用GBK字符串,可能無法預料的錯誤解碼成UTF-8
全模式
seg_list = jieba.cut("他來到上海交通大學",cut_all = True) print("【全模式】:" + "/".join(seg_list))【全模式】:他/來到/上海/上海交通大學/交通/大學
精確模式
seg_list = jieba.cut("他來到上海交通大學",cut_all = False) # cut_all默認值為False,所以不提供該參數與設置為False效果一樣,都是使用精確模式 print(type(seg_list))<class ‘generator’>
print("【精確模式】:" + "/".join(seg_list))【精確模式】:他/來到/上海交通大學
# 返回列表 seg_list = jieba.lcut("他來到上海交通大學",cut_all = True) print(type(seg_list))<class ‘list’>
print("【返回列表】:{0}".format(seg_list))【返回列表】:[‘他’, ‘來到’, ‘上海’, ‘上海交通大學’, ‘交通’, ‘大學’]
搜索引擎模式
seg_list = jieba.cut_for_search("他畢業于上海交通大學機電系,后來在一機部上海電器科學研究所工作") print(type(seg_list))<class ‘generator’>
print("【搜索引擎模式】:" + "/".join(seg_list))【搜索引擎模式】:他/畢業/于/上海/交通/大學/上海交通大學/機電/系/,/后來/在/一機部/上海/電器/科學/研究/研究所/工 作
# 返回列表 seg_list = jieba.lcut_for_search("他畢業于上海交通大學機電系,后來在一機部上海電器科學研究所工作") print(type(seg_list))<class ‘list’>
print("【返回列表】:{0}".format(seg_list))【返回列表】:[‘他’, ‘畢業’, ‘于’, ‘上海’, ‘交通’, ‘大學’, ‘上海交通大學’, ‘機電’, ‘系’, ‘,’, ‘后來’, ‘在’, ‘一 機部’, ‘上海’, ‘電器’, ‘科學’, ‘研究’, ‘研究所’, ‘工作’]
HMM模型
HMM模型,即隱馬爾可夫模型(Hidden Markov Model,HMM),是一種基于概率的統計分析模型,用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。在jieba中,對于未登錄到詞庫的詞,使用了基于漢字成詞能力的HMM模型和Viterbi算法,其大致原理是:
采用四個隱含狀態,分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結尾。通過標注號的分詞練集,可以得到HMM的各個參數,然后使用Viterbi算法來解釋測試集,得到分詞結果。
seg_list = jieba.cut("他來到了網易杭研大廈",HMM = False) #默認精確模式和關閉HMM print("【未啟用HMM】:" + "/".join(seg_list))【未啟用HMM】:他/來到/了/網易/杭/研/大廈
seg_list = jieba.cut("他來到了網易杭研大廈",HMM = True) #默認精確模式和啟用HMM print("【啟用HMM】:" + "/".join(seg_list))【啟用HMM】:他/來到/了/網易/杭研/大廈
繁體字分詞
jieba還支持對繁體字進行分詞
ft_text = """人生易老天難老 歲歲重陽 今又重陽 戰地黃花分外香 壹年壹度秋風勁 不似春光 勝似春光 寥廓江天萬裏霜 """ # 全模式 print("【全模式】:" + "/".join(jieba.cut(ft_text,cut_all=True)))【全模式】:人生/易/老天/難/老// //歲/歲/重/陽// //今/又/重/陽// //戰/地/黃/花/分外/香// //壹年/壹/度/秋/風/勁// //不似/春光// //勝/似/春光// //寥廓/江天/萬/裏/霜// /
# 精確模式 print("【精確模式】:" + "/".join(jieba.cut(ft_text,cut_all=False)))【精確模式】:人生/易/老天/難老/ /歲/歲/重陽/ /今/又/重陽/ /戰地/黃/花/分外/香/ /壹年/壹度/秋風勁/ /不/似/春光/ /勝似/春光/ /寥廓/江天/萬/裏/霜/
# 搜索引擎模式 print("【搜索引擎模式】:" + "/".join(jieba.cut_for_search(ft_text)))【搜索引擎模式】:人生/易/老天/難老/ /歲/歲/重陽/ /今/又/重陽/ /戰地/黃/花/分外/香/ /壹年/壹度/秋風勁/ /不/似/春 光/ /勝似/春光/ /寥廓/江天/萬/裏/霜/
添加自定義詞典
開發者可以指定自定義詞典,以便包含jieba詞庫里沒有的詞,詞典格式如下:
詞語 詞頻(可省略) 詞性(可省略)
雖然jieba有新詞識別能力,但自行添加新詞可以保證更高的正確率
載入詞典
使用jieba.load_userdict(file_name)即可載入詞典;filename為文件類對象或自定義詞典的路徑。
sample_text = "周大福是創新辦主任也是云計算方面的專家"# 未加載詞典 print("【未加載詞典:】" + '/'.join(jieba.cut(sample_text)))【未加載詞典:】周大福/是/創新/辦/主任/也/是/云/計算/方面/的/專家
# 載入詞典 jieba.load_userdict("userdict.txt") # 加載詞典后 print("【加載詞典后】:" + '/'.join(jieba.cut(sample_text)))【加載詞典后】:周大福/ 是/ 創新辦/ 主任/ 也/ 是/ 云計算/ 方面/ 的/ 專家
調整詞典
使用add_word(word,freq=None,tag=None)和del_word(word)在程序中動態修改詞典。
jieba.add_word('石墨烯') #增加自定義詞語 jieba.add_word('凱特琳',freq=42,tag='nz') #設置詞頻和詞性 jieba.del_word('自定義詞') #刪除自定義詞語使用suggest_freq(segment,tune=True)可調節單個詞語的詞頻,使其能(或不能)被分出來。
# 調節詞頻前 print("【調節詞頻前】:" + '/'.join(jieba.cut('如果放到post中將出錯。',HMM=False)))【調節詞頻前】:如果/放到/post/中將/出錯/。
# 調節詞頻 jieba.suggest_freq(('中','將'),True)494
# 調節詞頻后 print("【調節詞頻后】:" + '/'.join(jieba.cut('如果放到post中將出錯。',HMM=False)))【調節詞頻后】:如果/放到/post/中/將/出錯/。
關鍵詞提取
jieba提供了兩種關鍵詞提取方法,分別基于 TF-IDF 算法和 TextRank 算法。
基于 TF-IDF 算法的關鍵詞提取
TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率)是一種統計方法,用以評估一個詞語對于一個文件集或一個語料庫中的一份文件的重要程度,其原理可概括為:
一個詞語在一篇文章中出現次數越多,同時在所有文檔中出現次數越少,越能夠代表該文章
計算公式:
TF?IDF=TF?IDFTF - IDF = TF * IDF TF?IDF=TF?IDF
其中:
- TF(term frequency, TF):詞頻,某一個給定的詞語在該文件中出現的次數,計算公式:
TFw=在某一類中詞條w出現的次數該類中所有的詞條數目TF_w = \frac{在某一類中詞條w出現的次數}{該類中所有的詞條數目} TFw?=該類中所有的詞條數目在某一類中詞條w出現的次數?
- IDF(inverse document frequency, IDF):逆文件頻率,如果包含詞條的文件越少,則說明詞條具有很好的類別區分能力,計算公式:
IDF=log(語料庫的文檔總數包含詞條w的文檔數+1)IDF = log(\frac{語料庫的文檔總數}{包含詞條w的文檔數+1}) IDF=log(包含詞條w的文檔數+1語料庫的文檔總數?)
通過jieba.analyse.extract_tags方法可以基于 TF-IDF 算法進行關鍵詞提取,該方法共有4個參數:
- sentence:為待提取的文本
- topK:為返回幾個 TF/IDF 權重最大的關鍵詞,默認值為20
- withWeight:是否一并返回關鍵詞權重值,默認值為False
- allowPOS:僅包括指定詞性的詞,默認值為空
歐亞 0.7300142700289363
吉林 0.659038184373617
置業 0.4887134522112766
萬元 0.3392722481859574
增資 0.33582401985234045
4.3 0.25435675538085106
7000 0.25435675538085106
2013 0.25435675538085106
139.13 0.25435675538085106
實現 0.19900979900382978
綜合體 0.19480309624702127
經營范圍 0.19389757253595744
億元 0.1914421623587234
在建 0.17541884768425534
全資 0.17180164988510638
注冊資本 0.1712441526
百貨 0.16734460041382979
零售 0.1475057117057447
子公司 0.14596045237787234
營業 0.13920178509021275
使用jieba.analyse.TFIDF(idf_path=None)可以新建TFIDF實例,其中idf_path為IDF頻率文件。
基于 TextRank算法的關鍵詞提取
TextRank是另一種關鍵詞提取算法,基于大名鼎鼎的PageRank,其原理可參見論文——http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
通過jieba.analyse.testrank方法可以使用基于 TextRank 算法的關鍵詞提取,其與jieba.analyse.extract_tags有一樣的參數,但前者默認過濾詞性(allowPOS=('ns','n','vn','v'))。
for x, w in anls.textrank(s, withWeight=True):print('%s %s' % (x, w))吉林 1.0
歐亞 0.9966893354178172
置業 0.6434360313092776
實現 0.5898606692859626
收入 0.43677859947991454
增資 0.4099900531283276
子公司 0.35678295947672795
城市 0.34971383667403655
商業 0.34817220716026936
業務 0.3092230992619838
在建 0.3077929164033088
營業 0.3035777049319588
全資 0.303540981053475
綜合體 0.29580869172394825
注冊資本 0.29000519464085045
有限公司 0.2807830798576574
零售 0.27883620861218145
百貨 0.2781657628445476
開發 0.2693488779295851
經營范圍 0.2642762173558316
使用jieba.analyse.TextRank()可以新建自定義 TextRank 實例。
自定義語料庫
關鍵詞提取所使用逆向文件頻率(IDF)文本語料庫和停止詞(Stop Words)文本語料庫可以切換成自定義語料庫的路徑。
jieba.analyse.set_stop_words("stop_words.txt") jieba.analyse.set_idf_path("idf.txt.big") for x, w in anls.extract_tags(s, topK=20, withWeight=True):print('%s %s' % (x, w))吉林 1.0174270215234043
歐亞 0.7300142700289363
增資 0.5087135107617021
實現 0.5087135107617021
置業 0.4887134522112766
萬元 0.3392722481859574
此外 0.25435675538085106
全資 0.25435675538085106
有限公司 0.25435675538085106
4.3 0.25435675538085106
注冊資本 0.25435675538085106
7000 0.25435675538085106
增加 0.25435675538085106
主要 0.25435675538085106
房地產 0.25435675538085106
業務 0.25435675538085106
目前 0.25435675538085106
城市 0.25435675538085106
綜合體 0.25435675538085106
2013 0.25435675538085106
詞性標注
jieba.posseg.POSTokenizer(tokenizer=None)新建自定義分詞器,tokenizer參數可指定內部使用的jieba.Tokenizer分詞器。jieba.posseg.dt為默認詞性標注分詞器。
標注句子分詞后的每個詞的詞性,采用和ictcals兼容的標記法。
words = pseg.cut("他改變了中國") for word, flag in words:print("{0} {1}".format(word, flag))他 r
改變 v
了 ul
中國 ns
并行分詞
將目標文本按行分隔后,把各行文本分配到多個Python進程并行分詞,然后歸并結果,從而獲得分詞速度的客觀提升。用法:
- jieba.enable_parallel(4):開啟并行分詞模式,參數為并行進程數
- jieba.disable_parallel():關閉并行分詞模式
注意:基于 python 自帶的 multiprocessing 模塊,目前暫不支持 Windows
返回詞語在原文的起止位置
使用jieba.tokenize方法可以返回詞語在原文的起止位置。
注意:輸入參數只接受unicode
result = jieba.tokenize(u'上海益民食品一廠有限公司') print("【普通模式】") for tk in result:print("word:{0} \t start:{1} \t end:{2}".format(tk[0],tk[1],tk[2]))【普通模式】
word:上海 start:0 end:2
word:益民 start:2 end:4
word:食品 start:4 end:6
word:一廠 start:6 end:8
word:有限公司 start:8 end:12
【搜索模式】
word:上海 start:0 end:2
word:益民 start:2 end:4
word:食品 start:4 end:6
word:一廠 start:6 end:8
word:有限 start:8 end:10
word:公司 start:10 end:12
word:有限公司 start:8 end:12
實例
1.1對哈姆雷特文本進行詞頻統計
def getText():txt = open(r"hamlet.txt",'r').read()txt = txt.lower()for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_{|}·~’‘': #將特殊符號均替換為空格txt = txt.replace(ch," ")return txthamletTxt = getText() words = hamletTxt.split() counts = {} for word in words:counts[word] = counts.get(word,0) + 1items = list(counts.items()) items.sort(key = lambda x:x[1], reverse=True) #按value值排序 for i in range(10): #輸出前十多的詞頻word, count = items[i]print("{0:<10}{1:>5}".format(word, count))the 1138
and 965
to 754
of 669
you 550
i 542
a 542
my 514
hamlet 462
in 436
1.2《三國演義》人物出場統計
# V1版本 from os import read import jieba txt = open(r"threekingdoms.txt","r",encoding="utf-8").read() words = jieba.lcut(txt) counts = {} for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1 items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(15):word, count = items[i]print("{0:<10}{1:>5}".format(word,count))曹操 953
孔明 836
將軍 772
卻說 656
玄德 585
關公 510
丞相 491
二人 469
不可 440
荊州 425
玄德曰 390
孔明曰 390
不能 384
如此 378
張飛 358
可以看出以上的結果中存在著很多不是人名的詞頻,這需要我們對代碼做一些改進。改進版如下:
# V2版 from os import terminal_size import jieba excludes = {"將軍","卻說","荊州","二人","不可","不能","如此","商議","軍士","左右","軍馬","次日","引兵","如何","大喜","天下","東吳"}txt = open(r"threekingdoms.txt",'r',encoding='utf-8').read() words = jieba.lcut(txt) counts = {} for word in words:if len(word) == 1:continueelif word == "諸葛亮" or word == "孔明曰":rword = "孔明"elif word == "關公" or word == "云長":rword = "關羽"elif word == "玄德" or word == "玄德曰":rword == "劉備"elif word == "孟德" or word == "丞相" or word == "主公":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1for word in excludes:del counts[word]items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(10):word, count = items[i]print("{0:<10}{1:>5}".format(word,count))曹操 1795
孔明 1384
關羽 788
張飛 361
呂布 303
趙云 280
劉備 277
孫權 265
于是 252
今日 244
1.3 利用extract_tags算法對《三國演義》中的關鍵詞進行提取
from os import read import jieba import jieba.analyse as anls txt = open(r"threekingdoms.txt","r",encoding="utf-8").read() for x, w in anls.extract_tags(txt, topK=20, withWeight=True):print('%s %s' % (x, w))孔明 0.03758532276566071
曹操 0.03691595997415334
玄德 0.026956068237259715
將軍 0.02673692163610917
關公 0.025206101530884824
卻說 0.02446332750666053
丞相 0.020777068164177157
玄德曰 0.01954516271712038
孔明曰 0.01954516271712038
引兵 0.01898980058244164
云長 0.018232960704155924
荊州 0.018136019538121863
張飛 0.017755511674800408
二人 0.017061952960250298
主公 0.016121368683811123
呂布 0.01529292186862885
趙云 0.014223904044216125
不可 0.013875565783051705
軍士 0.013751985052577697
商議 0.013351444143675124
1.4 利用textrank算法對《三國演義》中的關鍵詞進行提取
from os import read import jieba import jieba.analyse as anls txt = open(r"threekingdoms.txt","r",encoding="utf-8").read() for x, w in anls.textrank(txt, withWeight=True):print('%s %s' % (x, w))將軍 1.0
卻說 0.847581019581622
丞相 0.5718053633959947
荊州 0.5303375153661818
不能 0.5290785118607801
不可 0.5001642467979682
軍士 0.45454238780777795
軍馬 0.36953009002402293
主公 0.3676381961018778
引兵 0.34890535163745795
商議 0.3238605331150697
東吳 0.3033786183888577
只見 0.3024237420127731
后主 0.2830994654967138
陛下 0.2823911867603753
人馬 0.279927492918901
漢中 0.26341749501986467
都督 0.25452786463113664
大喜 0.251798437942011
眾將 0.25156001701107994
總結
- 上一篇: javascript立即调用的函数表达式
- 下一篇: [课程相关]homework-06