python停用词_python利用jieba分词进行分词,去停止词(停用词)。
上一篇文章介紹了利用python進(jìn)行SEO詞庫(kù)去重,去重后需要對(duì)現(xiàn)有的詞庫(kù)進(jìn)行去停止詞操作,這里我們主要利用到了jieba分詞的搜索引擎模式cut_for_search() .
去停止詞主要利用了停止詞詞庫(kù)進(jìn)行去重set(jiebas)-set(stopkey)
Python |copy code |?
01#coding:utf-8
02import jieba,csv
03fenci=open(r'fenci_ddc.csv','w') #數(shù)據(jù)寫入到fenci_key里
04stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]
05#讀取停止詞文件并保存到列表stopkey
06key=csv.reader(file('key_ddc.csv','rb')) #讀取需要處理的詞庫(kù):key_ddc.csv
07list1=[]
08i=0
09
10for keys in key:
11
12if i==0:
13i=1
14jiebas=jieba.cut_for_search(keys[0]) #jieba.cut_for_search() 結(jié)巴分詞搜索引擎模式
15fenci_key="/".join(list(set(jiebas)-set(stopkey))) #使用join鏈接字符串輸出
16list1.append(fenci_key.strip()) #將數(shù)據(jù)添加到list1列表
17print u'程序處理中,請(qǐng)等待...'
18else:
19jiebas=jieba.cut_for_search(keys[0])
20fenci_key="/".join(list(set(jiebas)-set(stopkey)))
21list1.append(fenci_key.strip())
22
23zidian={}.fromkeys(list1).keys() #字典去重的方法
24
25for zd in zidian:
26try:
27print zd
28except:
29pass
30fenci.writelines(zd.encode('utf-8')) #需要轉(zhuǎn)換成utf-8格式輸出
31fenci.writelines('\n')
32
33fenci.close()
34
35
36
37
38
39
總結(jié)
以上是生活随笔為你收集整理的python停用词_python利用jieba分词进行分词,去停止词(停用词)。的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: pdf 深入理解kotlin协程_Kot
- 下一篇: 游戏开发流程