python爬虫当当网图书信息_利用python爬虫可视化分析当当网的图书数据!
導語
這周末就分享個小爬蟲吧。利用Python爬取并簡單地可視化分析當當網的圖書數據。
img
開發工具
Python版本:3.6.4
相關模塊:
requests模塊;
bs4模塊;
wordcloud模塊;
jieba模塊;
pillow模塊;
pyecharts模塊;
以及一些Python自帶的模塊。
環境搭建
安裝Python并添加到環境變量,pip安裝需要的相關模塊即可。
數據爬取
任務:
根據給定的關鍵字,爬取與該關鍵字相關的所有圖書數據。
實現:
以關鍵字為python為例,我們要爬取的圖書數據的網頁頁面是這樣子的:
img
其中,網頁的鏈接格式為:
http://search.dangdang.com/?key={keyword}&act=input&page_index={page_index}'
因此請求所有與關鍵詞相關的鏈接:
img
然后利用BeautifulSoup分別解析返回的網頁數據,提取我們自己需要的數據即可:
img
運行效果:
在cmd窗口運行"ddSpider.py"文件即可。
效果如下:
img
數據分析
好的,現在就簡單地可視化分析一波我們爬取到的61頁python相關的圖書數據吧~
讓我們先看看圖書的價格分布吧:
img
有沒有人想知道最貴的一本python相關的書的單價是多少呀?答案是:28390RMB
書名是:
Python in Computers Programming
QAQ買不起買不起。
再來看看圖書的評分分布唄:
img
看來大多數python相關的圖書都沒人買過誒~大概是買不起吧T_T。
再來評論數量?
img
那么評論數量TOP6的圖書有哪些呢?
img
老規矩,畫兩個詞云作結吧,把所有python相關的圖書的簡介做成詞云如何?
img
番外篇
這篇文章真的結束了嗎?
這篇文章真的結束了嗎?
這篇文章真的結束了嗎?
難道沒有人好奇我文章的封面怎么做的嗎?
好吧,我寫文章的時候沒人看到,所以即使真的有人好奇也沒法說?
其實很簡單,就是下了961張python相關圖書的圖書封面,然后拼在一起了。
源代碼如下:
img
效果如下:
img
總結
以上是生活随笔為你收集整理的python爬虫当当网图书信息_利用python爬虫可视化分析当当网的图书数据!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java生成word,营业执照获取信息,
- 下一篇: 数据库期末知识点汇总