中文文本情感分析-python包SnowNLP入门
?
目錄
?
1.情感分析是什么?
2.情感分析有什么用?
3.情感分析實戰-SnowNLP
SnowNLP官方參考資料:
SnowNLP兩個坑:
自己用snownlp訓練模型:
?
1.情感分析是什么?
?
極性:觀點正負性的程度,0-1,0為負,1為正
持有者:提取出觀點的持有者是誰
日常分析中使用頻率:極性>觀點>持有者
?
?
程度詞設置不同的權重
從例子可以看出,基于情感詞典的分析是有誤差的
?
文本向量化:文本變為數值
?
2.情感分析有什么用?
?
3.情感分析實戰-SnowNLP
?
SnowNLP官方參考資料:
https://pypi.org/project/snownlp/
https://github.com/isnowfy/snownlp
SnowNLP介紹:是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由于現在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現的,并且自帶了一些訓練好的字典。注意本程序都是處理的unicode編碼,所以使用時請自行decode成unicode。
?
SnowNLP兩個坑:
SnowNLP已經訓練好的模型不支持中文繁體字和英文,因為訓練好的模型是用中文簡體訓練的
?
Snownlp模型訓練精度不高,比如:
?
?
自己用snownlp訓練模型:
官網中關于訓練的說明
現在提供訓練的包括分詞,詞性標注,情感分析,而且都提供了我用來訓練的原始文件 以分詞為例 分詞在snownlp/seg目錄下
from snownlp import seg
seg.train('data.txt')
seg.save('seg.marshal')
# from snownlp import tag
# tag.train('199801.txt')
# tag.save('tag.marshal')
# from snownlp import sentiment
# sentiment.train('neg.txt', 'pos.txt')
# sentiment.save('sentiment.marshal')
這樣訓練好的文件就存儲為seg.marshal了,之后修改snownlp/seg/__init__.py里的data_path指向剛訓練好的文件即可
?
?
?
總結
以上是生活随笔為你收集整理的中文文本情感分析-python包SnowNLP入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python pip国内镜像
- 下一篇: Excel打开csv文件显示乱码问题解决