每日10行代码34:wordcloud生成词云时过滤掉某些词
生活随笔
收集整理的這篇文章主要介紹了
每日10行代码34:wordcloud生成词云时过滤掉某些词
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
今天在制作詞云時發現生成的詞云有很多虛詞,比方說“情況、一是、二是、要求、加快、推進、發展” 還有一些不想讓他出現的人名。這時就需要過濾某些詞了,在網上搜了下,發現大多都是在程序里添加一個列表,然后再過濾,或者是用stopwords.add() ,其實還有個方法:
修改成:
STOPWORDS = set(map(str.strip, open(os.path.join(FILE, 'stopwords'),encoding='utf-8').readlines()))就可以了,不過可能有些編輯器不用修改代碼就可以,我就沒做多的試驗了。
這樣修改屏蔽詞有個好處就是簡單,不用寫過多的代碼,用的包自身的屏蔽功能,不額外消耗內存,一次設置終身使用。不過也有一個問題,就是如果想針對不同的項目設置不同屏蔽詞的話就不行了,這種方法最適合的是設置一些常用屏蔽詞。
ps: 明天可能比較忙,先把文章發了,明天可能斷更一天。今天又爬了一個網站,寫的代碼可不止10行,但是跟前面爬人民日報的項目差不多,就不發上來了。
總結
以上是生活随笔為你收集整理的每日10行代码34:wordcloud生成词云时过滤掉某些词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Halcon
- 下一篇: python opencv截取视频