python作品_Python爬取图虫网摄影作品
準備
要爬的網站是圖蟲網
工具:python 2.7,BeautifulSoup4
注意:BeautifulSoup4為第三方類庫,如果在cmd下用pip安裝報錯,可直接去官網下載,解壓后拷貝到python安裝目錄中的lib目錄下,通過cmd進入插件的目錄,輸入python setup.py install,即可安裝。
文末有Python學習資料可以免費領取!(詳情請看文末)
分析
爬蟲的人口頁為: https://tuchong.com/explore/
可以看到這頁的每張圖片都代表一個題材,點進去后就是這個題材下所有的相冊,如下圖。
打開相冊后發現相冊里的圖片都是用js加載的,面對這種情況可以自己分析js,用Request發送請求獲取數據。也可以用一些模擬js行為的庫來抓取數據,但這樣對cpu和內存的消耗會增大,抓取速度也很慢,如非必要建議不使用。
以下是爬蟲的核心代碼,先解析出所有題材的url地址,然后爬蟲循環爬取每個題材的封面照片。
運行
下面讓我們的爬蟲跑起來,我運行在了服務器上了,大家可以直接通過瀏覽器訪問爬取的結果。
一段時間后運行完畢,打開生成的page文件夾,看到爬蟲為我們生成的html頁面,可以通過下面這個url訪問 (ps: 每個網頁大約50M,流量黨慎入。)
http://114.215.141.86/zs/spider/page/%E5%B0%91%E5%A5%B3.html
最后
這個網站很簡單,不需要登錄驗證碼,連請求頭都不用寫,爬蟲也沒有寫的太暴力,只是保存了圖片的url地址,并沒有抓取到本地,別對人家服務器造成壓力麻。
文末
這里小編是一個有著5年工作經驗的Python工程師,關于Python有一個完整學習Python的路線,學習材料和工具。需要的伙伴可以私信我,發送“Python”就可以獲取領取地址,免費送給大家。對于學習Python有任何問題(學習方法,學習效率,如何就業)都可以問我。希望你也能憑自己的努力,成為下一個優秀的程序員!
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python作品_Python爬取图虫网摄影作品的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: requests 可以 scrapy 不
- 下一篇: .bin 文件用excel文件打开_bi