Python爬虫——selenium爬取当当畅销图书排行
前言
上上篇文章我們爬取了今日頭條街拍美圖,好了,心情愉悅完了,這篇文章我們使用Selenium來爬取當當網(wǎng)的暢銷圖書排行。正所謂書中自有黃金屋,書中自有顏如玉,我們通過讀書學習來提高自身的才華,自然能有榮華富貴,也自然少不了漂亮小姐姐。
準備工作
在爬取數(shù)據(jù)前,我們需要安裝好Python的Selenium庫和Chrome瀏覽器并配置好ChromeDriver。
Selenium
Selenium是一個自動化測試工具,利用它可以驅動瀏覽器執(zhí)行特定的動作,如點擊、下拉等操作,同時還可以獲得瀏覽器當前呈現(xiàn)的頁面的源代碼,做到可見即可爬。對于一些JavaScript動態(tài)渲染的頁面來說,這種爬取方式非常有效。
Selenium庫的安裝比較簡單一行代碼就行:
pip3 install selenium也可以到PyPI下載(https://pypi.python.org/pypi/selenium/#downloads)對應的wheel文件,然后進入到wheel文件目錄,使用pip安裝:
pip install .........whl安裝驗證,進入Python命令行交互模式,如下圖:
這樣selenium就安裝完畢了。
ChromeDriver安裝
首先我們先查看Chrome的版本:點擊Chrome菜單“幫助”--->“關于Google Chrome”,即可查看Chrome的版本號,如下圖:
打開ChromeDriver的官方網(wǎng)站,根據(jù)自身Chrome瀏覽器版本下載ChromeDriver并安裝:
注意:ChromeDriver和Chrome瀏覽器一定要對應,否則可能無法正常工作。
ChromeDriver的環(huán)境變量配置,直接將chromedriver.exe文件拖到Python的Scripts目錄下。
到這來,準備工作就完成了,下面我們正式開始抓取當當網(wǎng)的暢銷圖書排行。
實戰(zhàn)演練
首先,我們進入當當網(wǎng)的暢銷圖書網(wǎng)頁,我們要利用Selenium抓取圖書信息并用pyquery解析得到圖書的排名、圖片、名稱、價格、評論等信息。如下圖:
進入開發(fā)者工具中的Network,查看Request URL,如下圖所示:
在頁面下方,有個分頁導航,我們點擊下一頁,觀察Request URL的變化:
http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1 #第1頁 http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-2 #第2頁 http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-23 #第23頁 http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-page #第n頁我們發(fā)現(xiàn)該URL只有最后面的那個數(shù)字發(fā)生變化,所以我們構造的URL就非常簡單了,那個page就是翻頁的關鍵字。
首頁爬取
首先我們先聲明chrome瀏覽器對應,webdriver支持主流的瀏覽器,比如說:谷歌瀏覽器、火狐瀏覽器、IE瀏覽器等等。通過WebDriverWait()方法,指定最長等待時間,當規(guī)定時間內沒加載出來就拋出異常。通過page參數(shù)來進行翻頁。
代碼如下:
browser=webdriver.Chrome() wait=WebDriverWait(browser,10) def index_page(page):print('正在爬取第',page,'頁')try:url='http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-'+str(page)browser.get(url)get_booklist()except TimeoutException:index_page(page)解析商品列表
接下來,我們就可以實現(xiàn)get_booklist()方法來解析商品列表了,這里我們直接調用page_source獲取頁面源代碼,然后用pyquery進行解析,實現(xiàn)代碼如下:
def get_booklist():html=browser.page_sourcedoc=pq(html)items=doc('.bang_list li').items()for item in items:book={'排名':item.find('.list_num').text(),'書名':item.find('.name').text(),'圖片':item.find('.pic img').attr('src'),'評論數(shù)':item.find('.star a').text(),'推薦':item.find('.tuijian').text(),'作者':item.find('.publisher_info a').text(),'日期':item.find('.publisher_info span').text(),'原價':item.find('.price_r').text().replace('¥',''),'折扣':item.find('.price_s',).text(),'電子書':item.find('.price_e').text().replace('電子書:','').replace('¥','')}saving_book(book)保存數(shù)據(jù)到文件中
接下來,我們將書本信息保存為csv格式,實現(xiàn)代碼如下:
with open('data.csv','a',newline='',)as csvfile:writer=csv.writer(csvfile)writer.writerow(['排名','書名','圖片','評論數(shù)','推薦','作者','原價','折扣','電子書']) def saving_book(book):with open('data.csv', 'a', newline='')as csfile:writer = csv.writer(csfile)writer.writerow([book.get('排名'), book.get('書名'), book.get('圖片'), book.get('評論數(shù)'), book.get('推薦'), book.get('作者'),book.get('原價'),book.get('折扣'),book.get('電子書')])遍歷每頁
剛才我們所定義的index_page()方法需要接收參數(shù)page,page代表頁碼,這里我們實現(xiàn)頁碼遍歷即可,實現(xiàn)代碼如下:
if __name__ == '__main__':for page in range(1,3):index_page(page)這里我們只遍歷2頁,感興趣的可以遍歷多頁。
結果展示
?
最后
好了,關于Python爬蟲——selenium爬取當當暢銷圖書排行講到這里了,感謝觀看!!!我們下篇文章再見!!!
總結
以上是生活随笔為你收集整理的Python爬虫——selenium爬取当当畅销图书排行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DVB字幕解码
- 下一篇: 光端机和无缝带拼接混合矩阵切换器的配搭应