搭建python_Crawlab准备之python+scrapy环境搭建
閱讀文本大概需要3分鐘。
? ? ? 上篇《分布式爬蟲管理平臺Crawlab開發搭建》把爬蟲的管理后臺搭建起來了;搗鼓一番發現要真正爬取數據還有下不少的功夫。這篇看看怎么搭建python+scrapy環境。
0x01:安裝Python3
下載python安裝包,具體版本根據自己的系統要求
https://www.python.org/downloads/windows/
下載安裝完成后直接cmd輸入python,可正常查看版本
注:安裝過程中請注意一定要請勾選pip安裝并加入到環境變量中,否則后續無法正常安裝第三方類庫。
0x02:安裝爬蟲所需的一些常用類庫
安裝 selenimu?自動化web包,cmd進入任意目錄,執行?
? ? ? ? pip install selenium
安裝 pymysql 連接mysql包,cmd進入任意目錄,執行。方便以后把爬取的數據插入數據庫
pip install pymysql
安裝 pillow 圖片處理包
pip install pillow
備注:pillow官網
? ? ? ?https://pillow.readthedocs.io/en/latest/installation.html
安裝 pypiwin32 操作底層dll包
pip install pypiwin32
安裝 requests 發送web請求包
pip install requests
安裝 scrapy 爬蟲框架包
pip install scrapy
備注:安裝爬蟲框架必須依賴的第三方類庫Twisted,在使用pip安裝時會出現下載文件失敗而無法安裝問題,可以先下載Twisted安裝文件。然后使用pip install安裝Twisted。
? ? ??pip install 下載Twisted文件絕對路徑
下載地址如下(下載與Python版本匹配的whl文件):
? ? ? https://www.lfd.uci.edu/~gohlke/pythonlibs/??
安裝解析網頁內容包
pip install bs4
0x03:驗證scrapy?是否安裝成功
進入cmd,輸入 scrapy 查看scrapy是否安裝成功
0x04:創建爬蟲項目
創建項目,只需一行命令即可創建名為 tutorial 的Scrapy項目:
? ? ? ? ? scrapy startproject tutorial
tutorial項目的目錄結構大概如下:
創建爬蟲的模板文件
進入 ./tutorial/tutorial?執行:
scrapy genspider QuoteSpider? "http://www.baidu.com"
? QuoteSpider是文件名,http://www.baidu.com是要爬取的域名,?./tutorial/tutorial/spiders?目錄下生成一個QuoteSpider.py文件。文件內容如下:
修改一下QuoteSpider.py文件:
import?scrapyclass?QuotespiderSpider(scrapy.Spider):????name?=?'QuoteSpider'#?允許爬取的域名#?allowed_domains?=?['landchina.mnr.gov.cn']
????start_urls?=?['http://landchina.mnr.gov.cn/scjy/tdzr/index_1.htm']def?parse(self,?response):?#?resonse相當于從網絡中返回內容所存儲的或對應的對象
????????fname?=?response.url.split('/')[-1]?#?定義文件名字,把response中的內容寫到一個html文件中with?open(fname,?'wb')?as?f:?#?從響應的url中提取文件名字作為保存為本地的文件名,然后將返回的內容保存為文件
????????????f.write(response.body)???????????
????????self.log('Saved?file?%s.'?%?fname)?#?self.log是運行日志,不是必要的
這個代碼很簡單就是爬取一個頁面,并保存到文件中。
執行tutorial爬蟲項目,在cmd目錄中執行
scrapy?crawl?QuoteSpider執行日志如下
可以在 tutorial?目錄下看的 index_1.htm 文件;該文件就是爬取到的內容。
☆
往期精彩
☆
01?Sentinel如何進行流量監控
02?Nacos源碼編譯
03?基于Apache Curator框架的ZooKeeper使用詳解
04?spring boot項目整合xxl-job
05?互聯網支付系統整體架構詳解
關注我
每天進步一點點
喜歡!在看?總結
以上是生活随笔為你收集整理的搭建python_Crawlab准备之python+scrapy环境搭建的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大顶堆删除最大值_C++|使用STL算法
- 下一篇: 低通滤波器算法实现_控制算法手记自抗扰控