快速认识网络爬虫与Scrapy网络爬虫框架
本課程為之后Scrapy課程的預先課程,非常簡單,主要是為了完全沒有基礎的小白準備的,如果你已經有了一定的了解那么請跳過該部分
問:什么是網絡爬蟲
答:就是從網上下載數據的一個程序,只不過這個程序下載的東西不是某某網站直接提供給我們的,我們直接從別人的網頁上拿來的.
問:為什么是我們自己拿?這兩者到底有什么區別
答:我們瀏覽網站是通過某個網址從別人的服務器獲取一個網頁,但是這個網頁我們是不能像BT文件那樣,通過迅雷直接下載的,但是網絡爬蟲則是一個我們自己的迅雷,只要有了網址,那么網頁上的東西我們不需要網站提供給我們,我們自己寫程序下載就可以了
問:這樣有什么好處嗎?
答:好處很簡單,就是批量獲取數據,比如我們我們想要下載周杰倫所有的微博,一個個復制粘貼是不現實的,但是網絡爬蟲卻可以幫助我們很快全都下載下來,機器是不會累,也不會煩的.
其他的比如批量獲取圖片,批量下載音樂什么的都是類似的網絡爬蟲
問: 那Scrapy網絡爬蟲框架又是什么?
答: 如同我們常用的其他框架一樣,比如Sklearn或者TensorFlow,又或者換一個例子,我們的PPT模板,框架就是一個已經寫好了很多東西的工具包(模板),我們可以使用它快速開發,不過代價就是我們得按照框架的一些條條框框來寫.
問:如何去寫一個網絡爬蟲?
答:首先是要找到擁有我們想要數據的網頁,比如之前一個獲取趕集網數據的爬蟲,我們需要的是一座城市所有的租房信息,那么首先我們需要的就是擁有這樣數據的網站,比如趕集網
然后就是分析這個網頁,然后才能開始編寫我們的爬蟲,然后才能運行爬蟲—>真正的獲取到我們想要的數據.
當頁面不同的時候,那么我們所需寫的爬蟲也就不一樣.這是一個見招拆招額過程
而我們本次系列的博客講的就是后面的第二部分,如何見招拆招,寫出我們需要的爬蟲
問:這次課程有什么要準備的嗎?
答:準備的話,需要看看之前趕集網的那篇博客,之后我們會用做例子,其他的沒什么要準備的
問:有什么資料之類的嗎?
答:有,首先是書一本,《精通Scrapy網絡爬蟲》這本書的線也是我們這次課程的主線,我備課的時候參考這本書比較多,除此之外因為現在是寒假了,為了更好的教課,我開了嗶哩嗶哩直播(歡迎大家來直播間送禮物),不過直播面向對象是我的學弟們,其他人如果來旁聽的話,我確實不介意,但是我只會按照學弟們的進度走。
除此之外博客會更新,會慢一天,內容基本差不多。
總結
以上是生活随笔為你收集整理的快速认识网络爬虫与Scrapy网络爬虫框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Sklearn中的CV与KFold详解
- 下一篇: Scrapy八小时快速入门第一小时:安装