python文本清洗_【python】TXT文本数据清洗和英文分词、词性标注
刪除空白行def clean_line (raw_file_name save_file_name):張開(kāi)(raw_file_name, r +)作為f_r,開(kāi)放(save_file_name, w +) f_w: f_r_list =列表(設(shè)置(f()))在f_r_list句子:如果句子= =\u201C\\ n\u201D: f_r_(句子)f (f_r_list)閱讀文本的每一行作為一個(gè)列表,然后使用一組集合來(lái)刪除重復(fù)值,然后將它轉(zhuǎn)換成一個(gè)for循環(huán)列表確定名單已經(jīng)\u201C\\ n\u201D字符,如果是這樣的話,刪除字符和列表的內(nèi)容寫入目標(biāo)文件。刪除多余的字符句子=過(guò)濾器(λch: ch不是\u201C\/ \/ \\ t \\ n0123456789\u201D,句子)英語(yǔ)詞性標(biāo)記,因?yàn)橛⒄Z(yǔ)使用空格作為分隔符,因此,詞性標(biāo)注和實(shí)體識(shí)別可以直接執(zhí)行,沒(méi)有分詞。
\u201D)是一個(gè)分隔符的英語(yǔ)文章,和輸出每行一個(gè)單詞格式。#英語(yǔ)詞性標(biāo)記def pos (seg_file):張開(kāi)(seg_file,\u201Cr\u201D)作為f_r,開(kāi)放(pos_file,\u201Cw\u201D,編碼=\u201Cutf - 8\u201D)作為f_w:句子= f()句= _tokenize單詞在句子(句子):詞= _tag (_tokenize(字))對(duì)我來(lái)說(shuō),在列舉j(單詞):f([我][0]+\u201C+單詞[我][1]+ ' \\ n ')打印(\u201CPosTagging完成了!\u201D)的輸入是一個(gè)英語(yǔ)單詞分割,和輸出格式是:詞詞性。
總結(jié)
以上是生活随笔為你收集整理的python文本清洗_【python】TXT文本数据清洗和英文分词、词性标注的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 李想:今年不会发布理想 L6,正在跟苹果
- 下一篇: 天回航天自主研发的两款可重复使用发动机点