當前位置：首頁 > 编程语言 > python >内容正文

python

python制作词典_我的词典我做主！python3.5生成自己的词性词典

發布時間：2023/11/30 python 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 python制作词典_我的词典我做主！python3.5生成自己的词性词典小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于朋友需要做文本分析，前提是要將文本中的名詞和動詞剔除掉，但沒有現成的名詞和動詞的txt格式的詞典。于是找來了一個英漢詞典，根據每一行出現的adj、adv、n、prep等，使用正則表達式匹配需要的詞性，并將其追加寫入到txt文件中。

建議大家使用python3.5，3的優點是避免了很多編碼問題。3代表著python的未來，大家還是應該多多的對未來投資。

比如，我要生成形容詞的詞典。步驟：

1、應先使用正則表達式，匹配含有‘adj’的行字符串，返回的是list。

2、獲得adj結尾處的索引值

3、對行字符串進行切片處理，獲得索引值后的全部字符

4、如果獲得的字符串有 ‘，’ 那再用正則表達式，匹配中文字符，獲得的是中文的list

代碼實現如下：

import re

strs = open(r'C:/Users/myl/Desktop/SegChineseToWords/英漢詞典TXT格式.txt','r',encoding='utf-8').readlines()

for str in strs:

# 形容詞典

adj_re = re.search('adj', str)

if adj_re != None:

adj_num = adj_re.end()+1

adj_str = str[adj_num:]

adj_list = re.findall("[\u4e00-\u9fa5]+", adj_str)

for ele_adj in adj_list:

ele_adj = ele_adj + '\n'

with open(r'C:/Users/myl/Desktop/SegChineseToWords/Dict/adj_dict.txt', 'a+',encoding='utf-8') as f:

f.write(ele_adj)

實現的效果如下圖：

本代碼中用到 re模塊的 research方法，具體大家去百度下，這個方法的相關知識。

現在附上練習材料和最終代碼，大家可以比照著練習下正則。

歡迎關注公眾號：大鄧帶你玩轉python

----------------------------------作者：鄧旭東

歡迎關注簡書賬號鄧旭東HIT

知乎：鄧旭東HIT

微信公眾號：大鄧帶你玩轉python

大家也可以加小編微信：tszhihu （備注：Python），拉大家到 Python愛好者社區微信群，可以跟鄧旭東、崔慶才等老師互相交流。謝謝

大家記得關注我，明天晚上崔慶才老師教你玩 Python爬蟲知乎用戶信息，記得關注。內容：

1. 分析知乎Ajax請求及爬取邏輯

2. 用Scrapy實現遞歸爬取

3. 爬取結果存儲到MongoDB 報名地址：爬取知乎所有用戶詳細信息。后面到 Live也弄幾場，感謝關注。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

以上是生活随笔為你收集整理的python制作词典_我的词典我做主！python3.5生成自己的词性词典的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。