python怎么使用自定义停用词_在Python中使用NLTK删除停用词
當(dāng)計(jì)算機(jī)處理自然語言時(shí),某些極端通用的單詞似乎在幫助選擇符合用戶需求的文檔方面幾乎沒有值,因此完全從詞匯表中排除了。這些單詞稱為停用詞。
例如,如果您輸入的句子為-John?is?a?person?who?takes?care?of?the?people?around?him.
停止單詞刪除后,您將獲得輸出-['John',?'person',?'takes',?'care',?'people',?'around',?'.']
NLTK收集了這些停用詞,我們可以將其從任何給定的句子中刪除。這在NLTK.corpus模塊內(nèi)部。我們可以用它來過濾掉句子中的停用詞。例如,
示例from?nltk.corpus?import?stopwords
from?nltk.tokenize?import?word_tokenize
my_sent?=?"約翰是一個(gè)照顧他周圍人的人。"
tokens?=?word_tokenize(my_sent)
filtered_sentence?=?[w?for?w?in?tokens?if?not?w?in?stopwords.words()]
print(filtered_sentence)
輸出結(jié)果
這將給出輸出-['John',?'person',?'takes',?'care',?'people',?'around',?'.']
總結(jié)
以上是生活随笔為你收集整理的python怎么使用自定义停用词_在Python中使用NLTK删除停用词的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 索引的分类
- 下一篇: Java生成开发帮助文档 IDEA