當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

發(fā)布時(shí)間：2023/12/15 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

對(duì)于爬蟲(chóng)很不陌生，而爬蟲(chóng)最為經(jīng)典的案例就是爬取豆瓣上面的電影數(shù)據(jù)了，今天小編就介紹一下如果爬取豆瓣上面電影影評(píng)，以《我不是藥神》為例。

基本環(huán)境配置

版本：Python3.6

相關(guān)模塊：

（1）requests：用來(lái)簡(jiǎn)單數(shù)據(jù)請(qǐng)求。

（2）lxml：比BeautiSoup更快更強(qiáng)的解析庫(kù)。

（3）pandas：數(shù)據(jù)處理神器。

（4）time：設(shè)置爬蟲(chóng)訪問(wèn)間隔。

（5）random：生成隨機(jī)數(shù)，配合time使用。

（6）tqdm：顯示程序運(yùn)行進(jìn)度。

以上模塊如果你沒(méi)有安裝可以在cmd命令提示符里進(jìn)行pip install + 模塊名?進(jìn)行安裝。

主要思路步驟

1、打開(kāi)豆瓣電影《我不是藥神》的短評(píng)網(wǎng)頁(yè)，右鍵檢查或者按F12，然后選擇用戶名和評(píng)論就會(huì)顯示出對(duì)應(yīng)的代碼部分

正在上傳...取消

2、通過(guò)requests模塊發(fā)送一個(gè)get請(qǐng)求，并以u(píng)tf-8重新編碼；

3、添加一個(gè)交互，判斷是否成功獲取到資源（狀態(tài)碼為200），輸出獲取狀態(tài)。

對(duì)于爬取下來(lái)《我不是藥神》的短評(píng)內(nèi)容，我們用lxml來(lái)進(jìn)行解析。在步驟1中找到對(duì)應(yīng)部分的代碼，然后右鍵選擇Copy，再選擇Copy XPath，就能獲取其路徑了。

注意：

爬取下來(lái)的短評(píng)首尾可能有多余的空格，我們就需要使用字符串中的strip()方法來(lái)去掉這些多余的空格。

4、獲取到數(shù)據(jù)之后，我們通過(guò)list構(gòu)造dictionary，然后通過(guò)dictionary構(gòu)造dataframe，并通過(guò)pandas模塊將數(shù)據(jù)輸出為csv文件

實(shí)現(xiàn)代碼

運(yùn)行結(jié)果

正在上傳...取消

當(dāng)然了，如果你想要用這些數(shù)據(jù)做成詞云圖，進(jìn)行數(shù)據(jù)展示也是可以的。

詞云實(shí)現(xiàn)代碼

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

以上是生活随笔為你收集整理的python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。