當前位置：首頁 > 编程语言 > python >内容正文

python

python作品_Python爬取图虫网摄影作品

發布時間：2024/1/23 python 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 python作品_Python爬取图虫网摄影作品小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

準備

要爬的網站是圖蟲網
工具：python 2.7，BeautifulSoup4

注意：BeautifulSoup4為第三方類庫，如果在cmd下用pip安裝報錯，可直接去官網下載，解壓后拷貝到python安裝目錄中的lib目錄下，通過cmd進入插件的目錄，輸入python setup.py install,即可安裝。

文末有Python學習資料可以免費領取！(詳情請看文末)

分析

爬蟲的人口頁為： https://tuchong.com/explore/

可以看到這頁的每張圖片都代表一個題材，點進去后就是這個題材下所有的相冊，如下圖。

打開相冊后發現相冊里的圖片都是用js加載的，面對這種情況可以自己分析js，用Request發送請求獲取數據。也可以用一些模擬js行為的庫來抓取數據,但這樣對cpu和內存的消耗會增大，抓取速度也很慢，如非必要建議不使用。
以下是爬蟲的核心代碼，先解析出所有題材的url地址，然后爬蟲循環爬取每個題材的封面照片。

運行

下面讓我們的爬蟲跑起來，我運行在了服務器上了，大家可以直接通過瀏覽器訪問爬取的結果。

一段時間后運行完畢，打開生成的page文件夾,看到爬蟲為我們生成的html頁面，可以通過下面這個url訪問 (ps: 每個網頁大約50M，流量黨慎入。)

http://114.215.141.86/zs/spider/page/%E5%B0%91%E5%A5%B3.html

最后

這個網站很簡單，不需要登錄驗證碼，連請求頭都不用寫，爬蟲也沒有寫的太暴力，只是保存了圖片的url地址，并沒有抓取到本地，別對人家服務器造成壓力麻。

文末

這里小編是一個有著5年工作經驗的Python工程師，關于Python有一個完整學習Python的路線，學習材料和工具。需要的伙伴可以私信我，發送“Python”就可以獲取領取地址，免費送給大家。對于學習Python有任何問題(學習方法，學習效率，如何就業)都可以問我。希望你也能憑自己的努力，成為下一個優秀的程序員！

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的python作品_Python爬取图虫网摄影作品的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： requests 可以 scrapy 不
下一篇： .bin 文件用excel文件打开_bi