當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

快速认识网络爬虫与Scrapy网络爬虫框架

發布時間：2025/3/21 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了快速认识网络爬虫与Scrapy网络爬虫框架小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本課程為之后Scrapy課程的預先課程,非常簡單,主要是為了完全沒有基礎的小白準備的,如果你已經有了一定的了解那么請跳過該部分

問:什么是網絡爬蟲
答:就是從網上下載數據的一個程序,只不過這個程序下載的東西不是某某網站直接提供給我們的,我們直接從別人的網頁上拿來的.
問:為什么是我們自己拿?這兩者到底有什么區別
答:我們瀏覽網站是通過某個網址從別人的服務器獲取一個網頁,但是這個網頁我們是不能像BT文件那樣,通過迅雷直接下載的,但是網絡爬蟲則是一個我們自己的迅雷,只要有了網址,那么網頁上的東西我們不需要網站提供給我們,我們自己寫程序下載就可以了

問:這樣有什么好處嗎?
答:好處很簡單,就是批量獲取數據,比如我們我們想要下載周杰倫所有的微博,一個個復制粘貼是不現實的,但是網絡爬蟲卻可以幫助我們很快全都下載下來,機器是不會累,也不會煩的.

其他的比如批量獲取圖片,批量下載音樂什么的都是類似的網絡爬蟲

問: 那Scrapy網絡爬蟲框架又是什么?
答: 如同我們常用的其他框架一樣,比如Sklearn或者TensorFlow,又或者換一個例子,我們的PPT模板,框架就是一個已經寫好了很多東西的工具包(模板),我們可以使用它快速開發,不過代價就是我們得按照框架的一些條條框框來寫.

問:如何去寫一個網絡爬蟲?

答:首先是要找到擁有我們想要數據的網頁,比如之前一個獲取趕集網數據的爬蟲,我們需要的是一座城市所有的租房信息,那么首先我們需要的就是擁有這樣數據的網站,比如趕集網

然后就是分析這個網頁,然后才能開始編寫我們的爬蟲,然后才能運行爬蟲—>真正的獲取到我們想要的數據.

當頁面不同的時候,那么我們所需寫的爬蟲也就不一樣.這是一個見招拆招額過程

而我們本次系列的博客講的就是后面的第二部分,如何見招拆招,寫出我們需要的爬蟲

問：這次課程有什么要準備的嗎？
答：準備的話，需要看看之前趕集網的那篇博客，之后我們會用做例子，其他的沒什么要準備的

問：有什么資料之類的嗎？
答：有，首先是書一本，《精通Scrapy網絡爬蟲》這本書的線也是我們這次課程的主線，我備課的時候參考這本書比較多，除此之外因為現在是寒假了，為了更好的教課，我開了嗶哩嗶哩直播(歡迎大家來直播間送禮物)，不過直播面向對象是我的學弟們，其他人如果來旁聽的話，我確實不介意，但是我只會按照學弟們的進度走。

除此之外博客會更新，會慢一天，內容基本差不多。

總結

以上是生活随笔為你收集整理的快速认识网络爬虫与Scrapy网络爬虫框架的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Sklearn中的CV与KFold详解
下一篇： Scrapy八小时快速入门第一小时:安装