基于 Flink、ClickHouse 的舆情分析系统:需求规格说明书与需求界面
文章目錄
- 一、引言
- 1.1 目的
- 1.2 項目信息
- 1.3 縮寫說明
- 1.4 術語定義
- 1.5 參考資料
- 二、輿情分析系統概述
- 2.1 輿情分析系統介紹
- 2.2 輿情分析系統價值主張與愿景
- 2.3 輿情分析系統功能架構
- 2.4 系統數據描述
- 三、功能性需求
- 3.1 輿情首頁需求
- 3.1.1 領域輿情熱度
- 3.1.2 領域輿情熱度時間變化
- 3.1.3 地域輿情分布
- 3.2 輿情搜索頁需求
- 3.2.1 輿情事件搜索
- 3.3 輿情預警頁需求
- 3.3.1 事件負面評論預警列表
- 3.3.2 事件情感占比排名
- 3.3.3 事件熱度增長列表
- 3.3.4 事件熱度增長排名
- 3.4 輿情事件總覽頁需求
- 3.4.1 事件關鍵詞詞云
- 3.4.2 事件傳播趨勢
- 3.4.3 時間核心傳播人
- 3.4.4 時間關注度增長趨勢
- 3.5 輿情事件文章頁需求
- 3.5.1 事件文章排名
- 3.5.2 事件文章地域分布
- 3.5.3 事件熱度TopN文章
- 3.5.4 事件文章時間線列表
- 3.6 輿情事件評論頁需求
- 3.6.1 事件評論關鍵詞詞云
- 3.6.2 事件評論情感走勢
- 3.6.3 事件評論者性別占比分析
- 3.6.4 事件高贊評論
- 3.6.5 事件高回復評論
- 3.7 管理員頁需求
- 3.7.1 爬蟲參數配置
- 3.7.2 TopN參數配置
- 3.7.3 事件負面評論占比預警閾值配置
- 3.7.4 系統日志頁
- 4. 非功能性需求
- 4.1 可交互性
- 4.2 可維護性與可擴展性
- 4.3 可適應性
- 4.4 響應性
- 4.5 可靠性
- 4.6 安全性
一、引言
1.1 目的
??編寫此文檔的目的是確認輿情分析系統的需求及系統邊界,指導系統的設計。
1.2 項目信息
- 項目名稱:輿情分析系統
- 項目提出者:指導教師
- 開發者:東北大學軟件學院大數據班T09實訓項目組(lzf、lcx)
- 用戶:輿情分析員、系統管理員
1.3 縮寫說明
1.4 術語定義
1.5 參考資料
- 新浪輿情通:https://yqt.mdata.net/
二、輿情分析系統概述
2.1 輿情分析系統介紹
??我們的輿情分析系統主要包括輿情總纜分析、輿情搜索、文章分析、文章評論分析、事件輿情分析、事件輿情預警六大功能模塊以及管理員系統配置模塊。針對輿情總覽分析、輿情搜索、文章分析、文章評論分析、事件輿情分析、事件輿情預警我們的分析數據來源于多個網站關于某一事件的報道文章的爬取,如微博、今日頭條、知乎等,但主要集中于微博。管理員配置模塊配置的是爬蟲的爬蟲間隔、輿情事件的展示參數以及系統日志查看。
2.2 輿情分析系統價值主張與愿景
??不論是熱點新聞還是娛樂八卦,傳播速度遠超我們的想象。可以在短短數分鐘內,有數萬計轉發,數百萬的閱讀。如此海量的信息可以得到爆炸式的傳播,如何能夠實時的把握民情并作出對應的處理對很多企業來說都是至關重要的。我們的輿情分析系統的目的是通過大數據技術實時獲取民眾輿論并分析輿論變化情況,同時能夠提供輿情預警使得可以引導輿情向好的方向發展。
2.3 輿情分析系統功能架構
??下圖為輿情分析系統整體功能架構圖:
2.4 系統數據描述
??系統的數據來源于微博博文與今日頭條新聞文章輿情數據的實時爬取,爬取的數據包括文章內容、文章作者、文章點贊量、文章評論量、文章轉發量、文章時間、文章評論、文章評論對應的評論者性別、文章評論的點贊量、文章評論的回復量等。
爬蟲爬取到的數據為JSON串(表示的是文章對象),文章對象的屬性及其說明如下:
- field
- 文章所屬領域
- user_name
- 用戶名(即文章作者名)
- user_id
- 用戶ID(即文章作者ID),文章作者為某一事件的傳播人
- user_type
-用戶類型(即作者類型) - gender
- 作者性別
- location
- 作者地域,由于或取不到文章發表時的IP,采用文章作者的地域作為文章發表時的地址
- fans_count
- 作者粉絲數
- blog_id
- 文章(如博客等)ID
- create_date
- 創建時間,即文章時間
- text
- 文章內容(文章文本)
- attitudes_count
- 文章點贊量
- comments_count
- 文章評論量
- reports_count
- 文章轉發量
- get_time
- 文章爬取時間
- comments
- 文章的各個評論組成的JSON數組,數組的元素為JSON字符串(表示的是評論對象)
??評論對象的屬性及其說明如下表所示:
- comment_id
- 評論ID
- commenter_id
- 評論者ID
- commenter_name
- 評論者名稱
- commenter_gender
- 評論者性別
- comment_text
- 評論文本
- comment_reply
- 評論回復量
- comment_like
- 評論點贊量
三、功能性需求
??系統用戶中輿情觀察分析員與系統管理員的用例圖為:
3.1 輿情首頁需求
3.1.1 領域輿情熱度
??用表格展示不同領域下近七天事件的熱度排名,表格展示的字段有事件名稱,時間熱度,事件類型,熱度排名,點擊事件名稱可跳轉到對于事件的詳情頁。
3.1.2 領域輿情熱度時間變化
??用折線圖展示不同領域最近七天的輿情熱度變化。
3.1.3 地域輿情分布
??用熱度地圖展示中國范圍內所有輿情文章的地域數量分布情況。
3.2 輿情搜索頁需求
3.2.1 輿情事件搜索
??提供搜索框,輸入事件關鍵詞,將對應的事件名稱,事件熱度,事件類型用表格的顯示展示在搜索框下,點擊事件名稱可跳轉到對應事件詳情頁。
3.3 輿情預警頁需求
3.3.1 事件負面評論預警列表
??用表格展示近七天內事件負面評論占比大于預警閾值的事件,表格包括事件名稱,事件負面評論占比,負面輿論環比增長率(由最近一天的數據和前一天的數據計算而來),表格可根據事件負面評論占比和環比增長率進行排序,其中正增長用紅色字體和增長箭頭標識,負增長由綠色字體和下降箭頭標識,點擊事件名稱可跳轉至對應事件詳情頁。
3.3.2 事件情感占比排名
??用餅圖展示事件負面評論占比排名 TopN 的事件,以及展示事件負面評論環比增長排名 TopN 的事件。
3.3.3 事件熱度增長列表
??用表格展示近七天事件的熱度增長率,表格字段有事件名稱、時間熱度、增長率,其中正增長用紅色字體和增長箭頭標識,負增長由綠色字體和下降箭頭標識,點擊事件名稱可跳轉至對應事件詳情頁。
3.3.4 事件熱度增長排名
??用柱形圖標識事件增長率排名靠前的事件,包括事件名稱和事件熱度增長率。
3.4 輿情事件總覽頁需求
3.4.1 事件關鍵詞詞云
??用詞云圖展示事件關鍵詞。
3.4.2 事件傳播趨勢
??用折線圖展示事件關注度走勢和事件信息量走勢,關注度是事件所有文章閱讀量(由于無法爬取到閱讀量,采用點贊量代替)之和,信息量事件所有文章的數量。
3.4.3 時間核心傳播人
??用餅圖展示事件核心傳播人占比,可設置展示媒體或網民,展示的數據主要有傳播人名稱和傳播量,傳播量指文章的轉發量。
3.4.4 時間關注度增長趨勢
??用折線面積圖展示事件關注度環比增長率隨時間的變化曲線。
3.5 輿情事件文章頁需求
3.5.1 事件文章排名
??用柱狀圖展示相關事件文章排名,橫坐標是文章作者的名稱,縱坐標數據可由按鈕切換成點贊數,轉發數,評論數。
3.5.2 事件文章地域分布
??用地圖展示事件文章發表的地域分布(關于某事件的所有文章在全國的數量分布)。
3.5.3 事件熱度TopN文章
??卡片展示熱度排名TopN文章的具體內容,作者名稱,文章熱度,可用走馬燈組件進行切換展示。
3.5.4 事件文章時間線列表
??用時間線按時間展示當前事件文章的發表,展示字段文章時間,文章作者,文章內容。
3.6 輿情事件評論頁需求
3.6.1 事件評論關鍵詞詞云
??用詞云圖展示當前事件下所用評論的關鍵詞。
3.6.2 事件評論情感走勢
??折線圖展示當前事件下所有評論的情感趨勢變化,圖像中標識出最大值和最小值,橫坐標為事件,縱坐標分別為負面評論和正面評論的占比,點擊折現右邊顯示當前橫坐標時間之前的所有評論,按照正面,負面,中立進行分類。
3.6.3 事件評論者性別占比分析
??用餅狀圖展示當前事件下評論者的性別占比。
3.6.4 事件高贊評論
??餅圖展示當前事件下的高贊評論。
3.6.5 事件高回復評論
??餅圖展示當前事件下的高回復評論。
3.7 管理員頁需求
3.7.1 爬蟲參數配置
??設置爬蟲爬取事件間隔。
3.7.2 TopN參數配置
??設置文章排名、文章熱度排名、事件高贊與高回復評論排名。
3.7.3 事件負面評論占比預警閾值配置
??在事件負面評論占比輸入框內輸入事件負面評論占比閾值,點擊設置事件負面評論占比預警閾值。
3.7.4 系統日志頁
??按時間線顯示系統操作的記錄。
4. 非功能性需求
4.1 可交互性
??系統的人機交互符合人的認知心理學基本原理,并且需要降低系統工作人員的學習成本,必要的話還要提供系統使用的幫助文檔。
4.2 可維護性與可擴展性
??系統基于大數據生態組件構建,鑒于大數據組件的橫向擴展能力,系統的可擴展性有一定保證。系統代碼的開發需要滿足代碼開發規范,需要做好充分的注釋、注意代碼的可復用性、注意功能模塊之間解耦能力,使得系統能夠以較低成本進行二次開發、進行功能擴展、進行系統維護。
4.3 可適應性
??網頁需要支持可視化圖表在主流瀏覽器的正常加載顯示,以及在瀏覽器窗口大小變化時它們也能夠適應窗口大小正常加載顯示。
4.4 響應性
??在網絡正常的情況下用戶點擊網頁后頁面的跳轉時間<=3s;若頁面的數據量較大而導致的頁面加載時間長的話,頁面必須提供網頁加載提示。
4.5 可靠性
??在系統發生故障后,需要保證系統可以在較短時間內重建其性能水平并恢復直接受影響數據的能力,并且使系統故障率保持在一定的水平下。
4.6 安全性
??系統需要保證數據的安全,防止數據的泄漏等。
總結
以上是生活随笔為你收集整理的基于 Flink、ClickHouse 的舆情分析系统:需求规格说明书与需求界面的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 导入项目运行报错:Error start
- 下一篇: knowndlls反劫持