lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?
前段時間做了新浪微博的主題劃分,結果還可以,上傳上來算是對之前的一個交代吧
數據集:
利用Gooseeker在新浪微博上爬取了2161個用戶,包括這些用戶間21368條相互間的關注關系,爬取了2161個新浪微博發布的微博數,粉絲數和關注數,單個用戶最近發布的300條微博,包括微博文本內容、微博的評論數和轉發數。
數據預處理:
1)
將單個用戶發布的300條微博整合成一個文檔
2)
對文檔進行噪音處理,去除‘@某用戶:’、‘我在這里:北京市’相類似的無用短語,再進一步去除特殊的標點符號;
3)
利用結巴分詞對文檔進行分詞工作;
4)
利用完善的停用詞表對文檔去除停用詞;
5)
得到的結果準備進行LDA主題劃分
參數設置:
用戶發布的微博內容文檔進行LDA主題劃分時,根據Griffiths
& Steyvers(2004)對主題模型參數設置的研究,將實驗參數設置為經驗值,主題設為50個,吉布斯采樣迭代次數設置為100次。
劃分結果:
在每個主題內部根據詞語概率高低進行主題詞排序,選擇具有最高概率的10個詞語評估話題挖掘效果。下表所示是取了LDA模型結果中前10個話題及其關鍵詞。
話題 話題關鍵詞
Topic1 推薦 知乎 紀錄片 年 下載 閱讀 文章 作者 英語 豆瓣
Topic2 手機 三星 蘋果 小米 發布 元 屏幕 支持 曝光 產品
Topic3 點 股 市場 股市 股票 經濟 投資 資金 交易
Topic4 孩子 歲 人 男子 年 元 老人 網友 請 女孩
Topic5 人 工作 寫 老師 好 學習 看到 發現 時間 大學
Topic6 錘子 收集 科技 堅果 發布會 關注 羅永浩 新品 老羅 版
Topic7 電影 看過 春晚 真是 節目 看到 來自 電視劇 觀眾 演員
Topic8 深圳 萬 中國 城市 房價 政策 銀行 元 人 改革 錢
Topic9 成都 重慶 西安 事 身邊 吃 地鐵 網友 路 南昌
Topic10 公司 年 互聯網 市場 技術 新 企業 創新 未來 產品這是最直觀的結果,還有其他主題-詞,文檔-主題的概率分布就比較繁雜,不做上傳了,就是結果還可以,當然因為做的方向不是這個方向,所以也就是湊合玩玩的態度~
心得體會:
GooSeeker真的是業界良心,沒有話說的,個人覺得很是方便的網頁數據采集器,當然效率有待提高
python的包功能也是真的強大,還有網上一些大神的代碼能力以及注釋都讓人嘆為觀止,不錯不錯的
越是純粹的東西越是讓人印象深刻,這些東西做出來感覺還是很好的
———————————————————————————————
GitHub - a55509432/python-LDA: lda模型的python實現
我最近也要做。。參考這個吧,完了做出來效果再來溝通
樓主要是有什么心得體會可以分享溝通就更好!
總結
以上是生活随笔為你收集整理的lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机控制技术实际PID控制,计算机控制
- 下一篇: 计算机里什么文件无法删除,电脑上的文件删