基于豆瓣哈哈哈哈哈哈小组的数据分析研究
目錄
1. 引言
2. 方法
3. 數據與結果分析
4. 結論與展望
參考文獻
純屬興趣研究,曾發于豆瓣哈組。
豆瓣哈組爬蟲地址:https://github.com/Captain-F/DoubanHahahaScraper
摘要:本文對豆瓣哈哈哈哈哈哈小組建組以來的帖子進行數據分析,挖掘好哈的帖子所具有的特征,并進行關聯分析,發現好哈的帖子長度不宜過長,需要有配圖,并且插圖數量適中。同時,本文還對帖子進行了其他數據分析。
關鍵詞:快樂;哈哈哈;數據分析
1. 引言
“哈哈哈哈哈”不僅是一種大笑、一種快樂,還是我們在工作中釋放壓力、生活中排解和緩解負面情緒的一種直接和有效的方式。當前,普通民眾受新冠病毒的影響,基本都宅在家中,生活會比較單調、乏味和無聊,而一些能夠讓人“哈哈哈哈哈”的帖子既能夠給大家帶來快樂,也能舒緩因疫情影響而緊繃的神經[1]。回想當初入組時的申請理由,“我想生活中能夠多一些哈哈哈哈哈哈”。入組后,筆者在哈組中確實收獲了不少快樂。但秉著“共同哈哈哈哈哈”的想法,在自己快樂的同時,也要給別人帶來快樂。筆者給哈組貢獻了零星的帖子,但似乎讓其他的哈er收獲不到快樂,還是有那么點的小小的難過(哈哈哈)。基于自身研究方向,筆者想著,什么樣的帖子最能讓大家歡樂?這樣的帖子又有什么樣的數據特征呢?在本文中,筆者對建組以來的帖子進行了數據分析和可視化研究。
本文的其余部分安排如下。第二部分描述了本研究所用的方法。第三部分則是實驗結果與分析。第四部分是總結與展望。
2. 方法
本文所用的方法可分為兩個部分,分別是數據采集和數據分析。總的來說,本哈er首先寫了一個爬蟲代碼,爬取了自建組以來的所有哈貼,生成csv表,并對其進行去重。之后,利用自然語言處理和數據可視化方法,對過濾后的數據進行不同維度的分析。
3. 數據與結果分析
3.1數據
筆者爬取了從2018年6月6日(哈組第一帖)到2020年2月1日時間段內所發的所有哈貼。爬取的字段包括:發帖時間、帖子名稱、帖子內容、回帖內容、回應數、帖子中圖片數、發帖用戶id、發帖用戶名稱、帖子url,共計八個字段。其中,回帖的內容指用戶對帖子的直接回復,用戶對某個的帖子的評論進行回應,不記錄回應內容中。帖子中圖片數指,用戶在帖子所插入的圖片或gif圖數量的總和。最后,共爬取1, 923, 224條帖子及回應,經過過濾,共獲得1, 920, 647帖子及回應。其中,帖子數為81, 947,回應數為1, 838, 700.
3.2結果分析
3.2.1 哈帖內容分析
圖1是對哈帖內容的進行展示的詞云圖。從圖中可以看出,“哈哈哈”甚是顯眼,充分體現了組內的發帖核心思想。
圖1 哈帖詞云圖
3.2.2 什么樣的帖子會比較好哈?
哈哈哈哈哈組發的帖子,都以文本、圖片(gif)或文本結合圖片的方式為主。那么好哈的帖子和文本長度、插入圖片數會有什么相關關系呢? 從圖2的散點圖可以看出,好哈的帖子多集中在字符長度為0~1000的帖子中,且當帖子字符增多,回應數總體呈下降的趨勢。
圖2 帖子長度同回應數之間的散點圖
從圖3的散點圖可以更明顯的看出,好哈的帖子多集中在[0, 50]區間的左半區,且當帖子的配圖數逐步增多,回應數總體呈下降趨勢。
圖3 插圖數量同回應數量關系圖
在文本,圖片以及文本結合圖片這三種發帖方式中,哪種方式的發帖會更流行呢,獲回應數也更多呢?從圖4中可以看出,以圖片為發帖方式的占比最大,其次是文本加圖片,最后是文本。但是發帖獲得回應數這一指標來看,文本加圖片的發帖方式更受用戶青睞,其次是圖片,最后是純文本。從可哈性的角度來說,以文本結合圖片或者圖片的方式發帖,更容易讓大家快樂起來。
圖4 不同發帖方式占比及獲回應數占比
總的來說,好哈的帖子長度不宜過長,需要有配圖,并且插圖數量適中。(有點像廢話)
3.2.3 誰在哈組發帖最多呢?
從圖5中可以看出,尬聊師、費楠多和陰晴位列發帖量前三甲。其中,尬聊師個人在哈組發帖貢獻量達1414,獨一檔!之后,筆者訪問了前三者的個人主頁,發現其在豆瓣中也是非常活躍的用戶。
圖5 哈組中發帖數量前三甲
3.2.4 誰投的帖子比較好哈呢?
圖6中排名第一的帖子從“哈效果”上來說,并不是很好,但在趣味性和互動性上,是非常好的帖子。排名的第二帖子是個討論帖,如果嚴格按照組規來說的話,此帖是不符合要求的,但此貼所提及的事也是引發了廣泛的社會影響。排名第三的帖子是實至名歸,真的很好哈!!!哈哈哈哈哈哈哈哈哈。圖7是排名4-8的帖子。
圖6 獲回應數量前三的哈帖
圖7 獲回應數量排名4-8的帖子
3.2.5本組中一共有多少精華貼呢?
截止2020.2.1,精華帖數量為61!!!(哈中哈,管理員加精還蠻嚴格的)
3.2.6 本組的哈貼產量怎么樣?
從圖8可以看出,2018年哈組“創業起步”比較困難,但6月之后,組內發帖數量攀升。至10月,發帖數量開始下降。
圖8 2018年哈貼產量
步入至2019年,哈組發貼數量基本成上升態勢,并于2019年12月,發帖量成功突破10, 000大關。
圖9 2019年哈帖產量
3.2.7 組內哈er的“哈哈哈哈哈”輸出量怎么樣?
本組中回應區內共輸出8, 838, 199次哈,平均每帖輸出108個哈!
圖10 哈er總哈數
其中哈組成員“不歪の太”哈出了天際,在此貼中,共輸出3591個哈!堪稱本組最能哈的選手!!!
圖11 最長哈輸出
4. 結論與展望
本文對建組以來以來的哈帖進行了簡單的數據分析,并將帖子回應數同帖子中字符長度和插圖數進行了關聯分析。此外,本文還對哈帖做出了其他的數據分析。未來的研究中,可以將組內發帖用戶特征融入,從而獲得更為有趣的發現。
哈哈哈哈哈組是一個快樂、有趣的小組,是大家分享和傳遞快樂的地方。當下很艱難,但一定會好起來,武漢加油,中國加油。
參考文獻
[1] 盛玉雷. 人人有責, 疫情防控從我做起. 人民日報, 2020-02-11 (15).
?
總結
以上是生活随笔為你收集整理的基于豆瓣哈哈哈哈哈哈小组的数据分析研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python切割图集
- 下一篇: 调和分析