计算机毕业设计 K-means 算法的校园微博热点话题发现系统(源码+论文)
文章目錄
- 0 前言
- 1 項目說明
- 2 開發(fā)環(huán)境
- 3 系統(tǒng)架構(gòu)
- 4 研究結(jié)果
- 5 論文目錄
0 前言
基于 K-means 算法的校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)
提示:適合用于課程設(shè)計或畢業(yè)設(shè)計,工作量達(dá)標(biāo),源碼開放
項目分享:
https://gitee.com/asoonis/feed-neo
1 項目說明
微博由其 “短平快 ” 的信息能力和快速傳播能力 ,已廣泛流行于高校學(xué)生的常生活中。但微博上的負(fù)面輿情信息給社會 、學(xué)校和個人帶來巨大的危害 。由于微博的多而快特點(diǎn) ,無法依賴人工對相關(guān)信息進(jìn)行收集 、篩選和發(fā)掘熱點(diǎn)話題 。因此研究并開發(fā)校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng) ,對高校輿情工作有重要的意義。
本文從微博獨(dú)有的短文本特征及國內(nèi)外相關(guān)微博研究出發(fā),通過對校園微博進(jìn)行分類處理后使 用K-means聚類算法對校園微博短文本聚類,并改進(jìn)熱度計算公式,通過話題熱度提取校園微博熱點(diǎn)話題,實(shí)現(xiàn)對校園微博熱點(diǎn)話題的監(jiān)控。本文通過幾個模塊設(shè)計并現(xiàn)了校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng),包括微博數(shù)據(jù)爬取模塊 、微博數(shù)據(jù)預(yù)處理模塊、微博熱點(diǎn)話題分析模塊、微博熱點(diǎn)話 題展示模塊等模塊。最后以廣州中醫(yī)藥大學(xué)的生 活類微博 — 廣中醫(yī)I棟為研究對象,對校園微博 各模塊功能及相關(guān)技術(shù)進(jìn)行介紹,并對相關(guān)模塊進(jìn)行測試驗(yàn)證,分析校園微博熱點(diǎn)話題特點(diǎn),總結(jié)系統(tǒng)的優(yōu)點(diǎn)和不足,提出下一步改進(jìn)的設(shè)想。
2 開發(fā)環(huán)境
- 硬件環(huán)境 : 內(nèi)存 12G、 硬盤容量 : 100G、 CPU: 4 核
- 系統(tǒng)環(huán)境 : 64 位 U buntu16.04 系統(tǒng)
- 數(shù)據(jù)庫 : MySQL、 Redis
- 開發(fā)語言與工具 : Python、 Vim、 Pycharm
- 框架與相關(guān)庫 :Scikit-Learn、Flask、Numpy、Requets、Bea utifulSoup、 Celery、 Gunicorn
3 系統(tǒng)架構(gòu)
校園微博輿情監(jiān)控系統(tǒng)有四大模塊,分別是校園微博文本獲取模塊 、微博文本預(yù)處理模塊 、校園微博熱點(diǎn)話題發(fā)現(xiàn)模塊 、校園微博熱點(diǎn)話題展示模塊。
4 研究結(jié)果
本文以校園微博作為研究主體,結(jié)合微博的特點(diǎn),通過研究熱點(diǎn)話題相關(guān)技術(shù),實(shí)現(xiàn)了一套校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)。該系統(tǒng)主要由數(shù)據(jù)獲取、微博數(shù)據(jù)預(yù)處理、K-means 聚類分析等模塊組成。該系統(tǒng)為校園輿情人員及時發(fā)現(xiàn)熱點(diǎn)話題帶來了很大的幫助。
本文主要實(shí)現(xiàn)內(nèi)容如下:
(1)使用Python爬蟲技術(shù)并發(fā)獲取微博頁面 ,并使用 Python相關(guān)庫快速提取微博文本內(nèi)容 。
(2)觀察校園微博的特點(diǎn)和傳統(tǒng)文本的區(qū)別,根據(jù)校園微博短文本的特點(diǎn)進(jìn)行數(shù)據(jù)預(yù)處理操作。
(3)針對于向量空間模型的高維度以及微博文本表示的稀疏性,通過改進(jìn)的TF-IDF算法實(shí)現(xiàn)有效的降維和特征選擇,解決了VSM特征向量的稀疏性問題。
(4)針對于傳統(tǒng)K-means 算法存在的局部最優(yōu)解問題,改進(jìn)了 Kmeans 算法初始簇心選擇,提高了 K-means聚類的準(zhǔn)確性 。
(5)根據(jù)校園微博的特點(diǎn),改進(jìn)了熱度計算的算法,提高了獲取熱點(diǎn)話題的準(zhǔn)確性。
(6)實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)可通過可視化界面進(jìn)行操作,方便輿情管理人員從界面上獲取熱點(diǎn)話題信息 。
5 論文目錄
摘 要
ABSTRACT
第 1 章 緒論
1.1 國內(nèi)外研究現(xiàn)狀與意義
1.2 本文創(chuàng)新點(diǎn)
1.3 論文寫作思路
第 2 章 相關(guān)技術(shù)介紹
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.2 中文分詞技術(shù)
2.3 特征選擇及權(quán)重計算
2.3.1 特征選擇
2.3.2 特征權(quán)重計算
2.4 文本表示
2.4.1 布爾模型
2.4.2 概率模型
2.4.3 向量空間模型
2.5 文本聚類算法
2.5.1 距離算法
2.5.2 K-means 聚類算法
2.5.3 二分 K-means 聚類算法
第 3 章 校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)設(shè)計與實(shí)現(xiàn)
3.1 系統(tǒng)設(shè)計目標(biāo)及要求
3.1.1 系統(tǒng)設(shè)計目標(biāo)
3.1.2 系統(tǒng)設(shè)計要求
3.2 系統(tǒng)詳細(xì)架構(gòu)設(shè)計
3.3 系統(tǒng)功能模塊設(shè)計與實(shí)現(xiàn)
3.3.1 微博數(shù)據(jù)獲取模塊
3.3.2 微博文本預(yù)處理模塊
3.3.2 校園微博熱點(diǎn)話題發(fā)現(xiàn)模塊
第 4 章 系統(tǒng)功能測試
4.1 系統(tǒng)運(yùn)行環(huán)境和參數(shù)
4.2 實(shí)驗(yàn)數(shù)據(jù)及處理
4.3 系統(tǒng)可視化界面
4.3.1 數(shù)據(jù)獲取界面
4.3.2 熱點(diǎn)話題排行榜
4.3.3 熱點(diǎn)話題熱度直方圖
4.3.4 敏感詞展示
總結(jié)與展望
參考文獻(xiàn)
致謝
附錄
項目分享:
https://gitee.com/asoonis/feed-neo
總結(jié)
以上是生活随笔為你收集整理的计算机毕业设计 K-means 算法的校园微博热点话题发现系统(源码+论文)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 7-132 画菱形 (10 分) 菱形是
- 下一篇: 经纬恒润又获奖啦!