花木兰到底好看不,我用Python爬取了几万条评论!
對于神仙姐姐劉亦菲,估計很多碼農都很喜歡,小編也非常喜歡她。從一開始的金粉世家里面的青澀的白秀珠,到天龍八部的神仙姐姐王語嫣,再到仙劍奇俠傳里面的趙靈兒,后來挑戰四大名捕里面的無情,演技也是越來越好。
現在她主演的《花木蘭》 也帶著一股巨浪向人們襲來,這部從拍攝之初就飽受爭議的電影,于是小編在貓眼上爬取上萬條的用戶評價,對其進行數據分析,今天就跟大家一起對其進行探索。
01.
網站的分析
這次我們的數據爬取從貓眼電影上獲取,目前有近14萬的電影短片數據。經過仔細的分析,發現貓眼電影的URL有一定的規律,可以從中獲取貓眼的電影評論數據,并且數據提供的格式json格式,方便操作。這個接口如下:
http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=?
這個接口主要有兩個參數:
movieid是指貓眼中每個電影獨有的id,如《花木蘭》的movieid=1210778;
startTime是指該頁面中第一條評論的時間,在這個頁面,每頁共有15條評論;
然后打開每一條評論,進行解析網頁,看一下里面的結構
發現關鍵的地方就是這個時間戳!
02.
動手寫代碼
有了這個接口,就可以很快的對影評進行爬取了。這里依賴于requests、json等庫進行(相關的爬蟲知識,去年我已經寫過50多篇,這里就不贅敘,翻翻歷史文章即可),獲取相關信息,相關核心代碼如下所示:
上面的代碼主要是構造代理user_agents, headers里面的參數,把網頁的爬取請求偽裝成瀏覽器的請求。
用requests發送網絡請求,然后獲取comments的數據,然后進行存儲到csv文件中去。CSV的讀寫存儲技巧可以看這篇(近20年五糧液股價分析|CSV文件實戰處理)
經過上面一頓猛如虎的操作,下面小編先帶大家看看爬的的原始數據,主要包含了發表者的城市,評論內容,性別,用戶,等級以及好評度等信息。
03?
數據分析
有了原始數據,剩下的就是對數據的清洗分析了,這里選用pyecharts庫進行數據分析,因為這個使用起來非常方便,而且效果也不錯。
1).整體分析
豆瓣上給這部電影的打分只有4.9,不知道為啥大家的評分這么低。我們先查看一下大家對花木蘭電影的總體評分吧。
用pyecharts的Bar來直觀的看一下效果:
02).好評和差評
接著我們看一下花木蘭的好評和差評的對比情況:
對df的數據進行處理,提取出好評和差評的關鍵字進行統計分析,然后進行可視化的展示。
由圖表可以看出,大家對花木蘭的評價分布還是比較均衡的,也有一點兩極分化的趨勢,給予高分和低分的的人都比較多。小編也電影院看了一下,認為兩級分化是有原因的:
其迪斯尼的制作特效,以及劉亦菲的超高人氣,為其吸引了大量人氣,帶來了一波好評;
但對于熟知中國古典故事花木蘭劇情的人來說,其劇情的設計是讓人很難接受的,也就導致了國人的諸多差評。
2)詞云分析
基于評價兩級分化的現象,小編決定探究一下兩級分化的原因究竟是什么,這里小編對整體評價、好評、壞評的詞云分別進行繪制,繪制得到的結果如下圖所示。
我們用jieba庫對整個的評論進行關鍵字分析,看一下大家的花木蘭的點評到底是啥,我們統計出點評最多的100個關鍵字。
由整體評價詞云可以看出,整體的評價還是偏向好的一方面,大大的 “好看” 兩字寫在了詞云中央;在差評詞云中, “劇情”、“中國” 等詞匯出現頻率很高,表明差評的人主觀感受是對劇情的不滿意,其不符合中國歷史故事,這一點是國人對這部電影的認可度不高的關鍵因素。
3)地域分析
最后小編帶大家看看影評者的分布情況,大家可以找一找自己所在的城市是否也為這部票房做貢獻了。
我們把上面采集到的數據集里面的每個評論的城市緯度拿出來,取前50個城市的名字,然后利用Pyecharts里面的geo庫進行可視化展示。
由分布圖可以看出,一線發達城市觀影人數是最多的,北上廣深顯得尤為突出,可見一線城市人民的消費力卓越;從東西分布和南北分布來看,非常符合我國東強西弱,南強北弱的經濟結構。
以上就是小編為大家帶來的《花木蘭》的電影分析,通過分析,我們發現其制作效果雖然可觀,但是劇情方面難以讓國人普遍接受。歡迎大家在留言區點評,給個三連!說說你對花木蘭的看法是啥?
限于篇幅上面的源碼沒有展開解讀,我們會在B站錄制視頻詳細解讀源碼的細節和注意點,到時把源碼和數據都給大家,大家記得來B站找我們。
https://space.bilibili.com/488689252
由于微信平臺算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。星標具體步驟為: (1)點擊頁面最上方“小詹學Python”,進入公眾號主頁。(2)點擊右上角的小點點,在彈出頁面點擊“設為星標”,就可以啦。感謝支持,比心。總結
以上是生活随笔為你收集整理的花木兰到底好看不,我用Python爬取了几万条评论!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 突发!Windows XP源代码泄露
- 下一篇: 聚合型神器!有了他,手机里app可以删一