自然语言处理之 nltk 英文分句、分词、统计词频的工具
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理之 nltk 英文分句、分词、统计词频的工具
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
自然語言處理之 nltk 英文分句、分詞、統(tǒng)計詞頻的工具:
需要引入包:
from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer from nltk.tokenize import word_tokenize from gensim import corpora, models import gensim
1、nltk 英文分句:sentences = sen_tokenizer.tokenize(paragraph)
2、nltk 英文分詞:word_list = nltk.word_tokenize(paragraph)
3、統(tǒng)計詞頻:freq_dist = nltk.FreqDist(words) #nltk.FreqDist返回一個詞典,key是不同的詞,value是詞出現(xiàn)的次數(shù)
總結(jié)
以上是生活随笔為你收集整理的自然语言处理之 nltk 英文分句、分词、统计词频的工具的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 代码之美——Doom3源代码赏析
- 下一篇: 百度paddle框架学习(二):使用经典