nltk断句
import nltk
import pprint
sent_tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')
text=nltk.corpus.gutenberg.raw('chesterton-thursday.txt')
sents=sent_tokenizer.tokenize(text)
pprint.pprint(sents[171:181])
功能是把一句話進行斷句,當(dāng)然斷句也會碰到一些困難,比如:U.S.A會干擾斷句的執(zhí)行。
轉(zhuǎn)載自《Python自然語言處理》的第126頁
總結(jié)
- 上一篇: ubuntu环境下一键切换python的
- 下一篇: 布朗语料库中不同部分的情态动词频率直方图