python歌词图表分析_Python可视化图分析毛不易的《入海》,看看听歌的人都在想些什么...
前言
本文的文字及圖片來源于網(wǎng)絡(luò),僅供學(xué)習(xí)、交流使用,不具有任何商業(yè)用途,版權(quán)歸原作者所有,如有問題請及時聯(lián)系我們以作處理。
歡迎關(guān)注小編,除了分享技術(shù)文章之外還有很多福利,私信學(xué)習(xí)資料可以領(lǐng)取包括不限于Python實戰(zhàn)演練、PDF電子文檔、面試集錦、學(xué)習(xí)資料等。
沒錯,還是那個B站,在520這個既浪漫且有營銷價值的一天又「搞事情」了。
5月20日, B站聯(lián)合毛不易發(fā)布畢業(yè)季主題曲《入海》。
這首歌主題是“獻(xiàn)給即將或已經(jīng)畢業(yè)的人們”,歌曲MV中以主人公畢業(yè)的時候為原點,追憶過去,并用大量篇幅展現(xiàn)普通人畢業(yè)后的社會生活。
這首歌一經(jīng)發(fā)布就在B站引爆了話題點,截止到5月24日在B站播放量達(dá)到了800萬+,收獲了5.2萬彈幕,最高全站日排行1名。
今天我們就帶你來解讀這首《入海》,以及背后不一樣的毛不易。
一、毛不易的歌里都喜歡唱些什么?
毛不易,本名王維家。本來畢業(yè)于杭州師范大學(xué)護(hù)理專業(yè)的他一直有個歌手夢。在2017年,參加騰訊視頻選秀音樂娛樂節(jié)目《明日之子》,獲得全國總決賽冠軍,從而正式進(jìn)入演藝圈。誰又能想到最后拿到冠軍是這個長相平平,沒有什么優(yōu)勢,甚至有點害羞憨厚的毛不易了。
隨著《消愁》《像我這樣的人》等歌曲的大火,毛不易這個名字也被越來越多的人知曉。同時在今年鵝廠的女團(tuán)選秀節(jié)目《創(chuàng)造營2020》中,毛不易更是以導(dǎo)師的身份加入,呆萌的毛老師這次也收獲了不少的粉絲。
聽著《消愁》里的“一杯敬朝陽,一杯敬月光“,大概是因為才華,毛不易在這個年紀(jì)能寫出人生的無奈和糾葛,這是一種大的勇氣。
那么毛不易的歌里都在唱些什么呢?下面讓我們來盤一盤:
我們分析整理了毛不易在網(wǎng)易云音樂的歌曲,一共83首,歌詞字?jǐn)?shù)加起來45577字,我們用Python對這些歌詞進(jìn)行分析。
歌曲時長分布
首先在歌曲時長方面,時長為4-5分鐘的最多高達(dá)43.9%,3-4分鐘為29.27%,2-3分鐘的為13.41%。要知道一般歌曲時長多為3分鐘左右,看來毛不易的歌時長還是偏長的。
歌曲正向情感得分
我們使用boson庫對每首歌的歌詞的情感進(jìn)行打分,分?jǐn)?shù)介于0~100分,高于50分為積極,分?jǐn)?shù)越高,積極傾向性越高。從分布圖可以看出,在83首歌曲中,大部分的歌曲正向積極情感為主。
毛不易最喜歡的詞TOP15
毛不易最喜歡的歌里最喜歡用哪些詞呢?我們分析整理得出了歌詞中出現(xiàn)頻率最高的TOP15。可以看到"等待"、"生活"、"時光"等詞出現(xiàn)頻率最高,位列前三。
"慢慢"、"遇見"、"江水"、"角落"等比較文藝的詞也上榜了。有意思的是"有錢"出現(xiàn)頻率也較高,位列第四。
二、《入海》全站日排名第一 ,這首獻(xiàn)給畢業(yè)季的歌好在哪兒?
我們使用Python獲取并分析了B站上《入海》這首MV的評論數(shù)據(jù),經(jīng)過去重之后得到19099條樣本,下面讓我們看到評論的具體分析。
評論用戶性別占比
首先,在評論用戶性別占比方面,男性用戶占比略高,男性用戶占比54.69%,女性用戶占比45.31%。
評論用戶客戶端分布
那么看《入海》的用戶在看視頻時都用的什么移動設(shè)備呢?經(jīng)過分析發(fā)現(xiàn),用iphone的用戶占了很大的比例,遠(yuǎn)超Andrio系統(tǒng)的用戶。第三位是使用ipad的用戶。
評論用戶等級分布
同時我們知道,b站上用戶因為參與程度等因素,等級從0-6分布,數(shù)字越大等級越高。在《入海》這首歌的評論用戶上,評論中5級的占比最高為36.1%,其次是4級占比26.31%,6級占比僅為3.24%,這也是因為畢竟要成為六級大佬實在太難了。
各時段評論人數(shù)
在評論時間段方面,《入海》是在5月20日 8:30發(fā)布的,在發(fā)布后評論的人數(shù)越來越多,在12點左右評論達(dá)到最高峰,這個時段共有2萬7千余人進(jìn)行評論,遠(yuǎn)高于其他時段,之后隨著時間推移評論人數(shù)也越來越少,趨于平緩。
評論關(guān)鍵詞TOP15
在評論中大家說得最多的是什么呢?
經(jīng)過分析整理可以看到,"畢業(yè)"是提到最多的詞,其次第二位是"后浪",畢竟作為同樣聚焦在年輕人身上的話題,這次的《入海》很容易讓大家聯(lián)系到5月4日B站發(fā)布的《后浪》視頻。
同時,"快樂"、"入海"、"大哭"等詞也被頻頻提到。
三、Python分析:B站《入海》評論數(shù)據(jù)
我們使用Python獲取并分析了B站上《入海》這首MV的評論數(shù)據(jù)。經(jīng)過去重之后得到19099條樣本,來分析一下這周MV的用戶的評論信息。整個分析流程分為以下幾步:
數(shù)據(jù)獲取
數(shù)據(jù)整理
數(shù)據(jù)可視化
數(shù)據(jù)獲取
在獲取視頻評論之前,我們首要做的就是分析其網(wǎng)頁結(jié)構(gòu),尋找目標(biāo)數(shù)據(jù),也就是我們要評論的數(shù)據(jù)在哪里。
經(jīng)過抓包分析,在network-json選項卡下,很容易找到了數(shù)據(jù)傳輸?shù)牡刂?/p>
其中oid是視頻的專屬oid,pn是頁面數(shù)。
由上圖可看出,其評論數(shù)據(jù)是以json數(shù)據(jù)形式存在于網(wǎng)頁端的,目前顯示的頁數(shù)是976頁,每頁20條評論,追評數(shù)據(jù)暫時不做抓取。
接下來,就爬取思路很明確,從第一頁的JSON文件開始,爬完20條評論,循環(huán)pn頁數(shù),直到爬完所有的評論數(shù)據(jù)。
代碼如下:
獲取到的數(shù)據(jù)以DataFrame的形式存儲,格式如下:
# 讀入數(shù)據(jù)
df.head()
數(shù)據(jù)集有19099個樣本,8個字段,字段名稱為:用戶名、用戶性別、用戶簽名、用戶等級、用戶評論、設(shè)備名稱、評論時間、點贊數(shù)。
df.info()
RangeIndex: 19099 entries, 0 to 19098
Data columns (total 8 columns):
user_name 19099 non-null object
sex 19099 non-null object
sign 9896 non-null object
current_level 19099 non-null int64
content 19099 non-null object
device 4159 non-null object
content_time 19099 non-null int64
reply_count 19099 non-null int64
dtypes: int64(3), object(5)
memory usage: 1.2+ MB
數(shù)據(jù)整理
此處我們主要對以上獲取的數(shù)據(jù)集進(jìn)行部分清洗工作以方便后續(xù)的處理:
重復(fù)值處理
類型轉(zhuǎn)化
時間戳數(shù)據(jù)處理
評論數(shù)據(jù)jieba分詞處理-(代碼暫略)
數(shù)據(jù)可視化分析
此處我們將進(jìn)行以下部分的數(shù)據(jù)可視化分析,首先導(dǎo)入所需包,其中pyecharts用于繪制動態(tài)圖形,stylecloud用于繪制詞云圖,關(guān)鍵代碼如下:
評論性別占比
用戶客戶端分布
用戶等級分布
評論時間走勢圖
評論詞云圖
總結(jié)
以上是生活随笔為你收集整理的python歌词图表分析_Python可视化图分析毛不易的《入海》,看看听歌的人都在想些什么...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python实现多层感知器MLP(基于双
- 下一篇: 麻将与扑克的文化内涵