python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理
前言
對(duì)于爬蟲(chóng)很不陌生,而爬蟲(chóng)最為經(jīng)典的案例就是爬取豆瓣上面的電影數(shù)據(jù)了,今天小編就介紹一下如果爬取豆瓣上面電影影評(píng),以《我不是藥神》為例。
基本環(huán)境配置
版本:Python3.6
相關(guān)模塊:
(1)requests:用來(lái)簡(jiǎn)單數(shù)據(jù)請(qǐng)求。
(2)lxml:比BeautiSoup更快更強(qiáng)的解析庫(kù)。
(3)pandas:數(shù)據(jù)處理神器。
(4)time:設(shè)置爬蟲(chóng)訪問(wèn)間隔。
(5)random:生成隨機(jī)數(shù),配合time使用。
(6)tqdm:顯示程序運(yùn)行進(jìn)度。
以上模塊如果你沒(méi)有安裝可以在cmd命令提示符里進(jìn)行pip install + 模塊名?進(jìn)行安裝。
主要思路步驟
1、打開(kāi)豆瓣電影《我不是藥神》的短評(píng)網(wǎng)頁(yè),右鍵檢查或者按F12,然后選擇用戶名和評(píng)論就會(huì)顯示出對(duì)應(yīng)的代碼部分
正在上傳...取消
2、通過(guò)requests模塊發(fā)送一個(gè)get請(qǐng)求,并以u(píng)tf-8重新編碼;
3、添加一個(gè)交互,判斷是否成功獲取到資源(狀態(tài)碼為200),輸出獲取狀態(tài)。
對(duì)于爬取下來(lái)《我不是藥神》的短評(píng)內(nèi)容,我們用lxml來(lái)進(jìn)行解析。在步驟1中找到對(duì)應(yīng)部分的代碼,然后右鍵選擇Copy,再選擇Copy XPath,就能獲取其路徑了。
注意:
爬取下來(lái)的短評(píng)首尾可能有多余的空格,我們就需要使用字符串中的strip()方法來(lái)去掉這些多余的空格。
4、獲取到數(shù)據(jù)之后,我們通過(guò)list構(gòu)造dictionary,然后通過(guò)dictionary構(gòu)造dataframe,并通過(guò)pandas模塊將數(shù)據(jù)輸出為csv文件
實(shí)現(xiàn)代碼
運(yùn)行結(jié)果
正在上傳...取消
當(dāng)然了,如果你想要用這些數(shù)據(jù)做成詞云圖,進(jìn)行數(shù)據(jù)展示也是可以的。
詞云實(shí)現(xiàn)代碼
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 约4238元起!iQOO 11海外开售
- 下一篇: python带通滤波_python中的f