基于Python爬虫和K-means算法的校园微博热点话题发现系统
微博由于其“短平快”的信息生產能力和快速傳播能力,已經廣泛流行于高校學生的日常生活中。但微博上的負面輿情信息給社會、學校和個人帶來巨大的危害。由于微博的多而快特點,無法依賴人工對相關信息進行收集、篩選和發掘熱點話題。因此研究并開發校園微博熱點話題發現系統,對高校輿情工作有重要的意義。
本文從微博獨有的短文本特征及國內外相關微博研究出發,通過對校園微博進行分類處理后使用K-means聚類算法對校園微博短文本聚類,并改進熱度計算公式,通過話題熱度提取校園微博熱點話題,實現對校園微博熱點話題的監控。本文通過幾個模塊設計并實現了校園微博熱點話題發現系統,包括微博數據爬取模塊、微博數據預處理模塊、微博熱點話題分析模塊、微博熱點話題展示模塊等模塊。最后以廣州中醫藥大學的生活類微博—廣中醫I棟為研究對象,對校園微博各模塊功能及相關技術進行介紹,并對相關模塊進行測試驗證,分析校園微博熱點話題特點,總結系統的優點和不足,提出下一步改進的設想。
關鍵詞:校園微博K-means熱點話題
ABSTRACT
ABSTRACT
Becauseofits"shortandfast"informationproductioncapabilityandrapiddisseminationcapability,MicroBloghasbecomewidelypopularinthedailylifeofcollegestudentsHowever,thenegativepublicsentimentinformationonmicrobloghasbroughtgreatharmtosociety,schoolsandindividualsDuetothemultipleandfastcharacteristicsofmicroblog,itisimpossibletorelyonmanualcollectionofrelevantinformationtoscreenandexplorehottopicsTherefore,researchinganddevelopinghotspotdiscoverysystemoncampusmicroblogsisofgreatsignificancetothepublicopinionworkincollegesanduniversities
ThisarticlestartswiththeuniqueshorttextfeatureofmicroblogandrelatedmicroblogstudiesathomeandabroadAfterclassifyingcampusmicroblogs,weuseK-meansclusteringalgorithmtoclustershorttextsoncampusmicroblogsandimproveheatcalculationformulasThroughthehottopicofcampusmicrobloghottopicextraction,toachievethemonitoringofcampusmicroblogginghottopicsThispaperdesignsandimplementsacampusmicrobloghottopicdiscoverysystemthroughseveralmodules,includingmicroblogdatacrawlingmodule,microblogdatapreprocessingmodule,microbloghottopicanalysismodule,andmicrobloghottopicdisplaymoduleTheUniversityofMedicine'sLifeMicroblog–GuangzhongyiIdongisthesubjectofthestudyItintroducesthefunctionsandrelatedtechnologiesofthecampusmicroblogmodules,testsandverifiestherelevantmodules,analyzesthecharacteristicsofthecampusmicroblogginghottopics,andsummarizestheadvantagesanddisadvantagesofthesystemPutforwardtheideaoffurtherimprovement
Keyword:CampusMicro-BlogK-meansHottopicdetection
?
?
目錄
摘要I
ABSTRACTIII
第1章緒論1
11國內外研究現狀與意義1
12本文創新點2
13論文寫作思路2
第2章相關技術介紹5
21網絡爬蟲技術5
22中文分詞技術5
23特征選擇及權重計算6
231特征選擇6
232特征權重計算7
24文本表示8
241布爾模型8
242概率模型9
243向量空間模型9
25文本聚類算法9
251距離算法10
252K-means聚類算法10
253二分K-means聚類算法11
第3章校園微博熱點話題發現系統設計與實現13
31系統設計目標及要求13
311系統設計目標13
312系統設計要求14
32系統詳細架構設計14
33系統功能模塊設計與實現15
331微博數據獲取模塊15
332微博文本預處理模塊18
332校園微博熱點話題發現模塊21
?
?
?
第4章系統功能測試25
41系統運行環境和參數25
42實驗數據及處理25
43系統可視化界面27
431數據獲取界面27
432熱點話題排行榜27
433熱點話題熱度直方圖28
434敏感詞展示28
總結與展望31
參考文獻33
致謝35
附錄37
總結
以上是生活随笔為你收集整理的基于Python爬虫和K-means算法的校园微博热点话题发现系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 奥运礼品“买即送”
- 下一篇: 原创-含泪贡献:Revit二次开发,从零