當前位置：首頁 > 编程语言 > python >内容正文

python

搭建python_Crawlab准备之python+scrapy环境搭建

發布時間：2024/7/23 python 32 豆豆

生活随笔收集整理的這篇文章主要介紹了搭建python_Crawlab准备之python+scrapy环境搭建小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

閱讀文本大概需要3分鐘。

? ? ? 上篇《分布式爬蟲管理平臺Crawlab開發搭建》把爬蟲的管理后臺搭建起來了；搗鼓一番發現要真正爬取數據還有下不少的功夫。這篇看看怎么搭建python+scrapy環境。

0x01：安裝Python3

下載python安裝包，具體版本根據自己的系統要求
https://www.python.org/downloads/windows/
下載安裝完成后直接cmd輸入python，可正常查看版本

注：安裝過程中請注意一定要請勾選pip安裝并加入到環境變量中，否則后續無法正常安裝第三方類庫。

0x02：安裝爬蟲所需的一些常用類庫

安裝 selenimu?自動化web包，cmd進入任意目錄，執行?

? ? ? ? pip install selenium

安裝 pymysql 連接mysql包，cmd進入任意目錄，執行。方便以后把爬取的數據插入數據庫
pip install pymysql
安裝 pillow 圖片處理包
pip install pillow

備注：pillow官網

? ? ? ?https://pillow.readthedocs.io/en/latest/installation.html

安裝 pypiwin32 操作底層dll包
pip install pypiwin32
安裝 requests 發送web請求包
pip install requests
安裝 scrapy 爬蟲框架包
pip install scrapy

備注：安裝爬蟲框架必須依賴的第三方類庫Twisted，在使用pip安裝時會出現下載文件失敗而無法安裝問題，可以先下載Twisted安裝文件。然后使用pip install安裝Twisted。

? ? ??pip install 下載Twisted文件絕對路徑

下載地址如下(下載與Python版本匹配的whl文件)：

? ? ? https://www.lfd.uci.edu/~gohlke/pythonlibs/??

安裝解析網頁內容包
pip install bs4

0x03：驗證scrapy?是否安裝成功

進入cmd，輸入 scrapy 查看scrapy是否安裝成功

0x04：創建爬蟲項目

創建項目，只需一行命令即可創建名為 tutorial 的Scrapy項目：

? ? ? ? ? scrapy startproject tutorial

tutorial項目的目錄結構大概如下：

創建爬蟲的模板文件
進入 ./tutorial/tutorial?執行：
scrapy genspider QuoteSpider? "http://www.baidu.com"

? QuoteSpider是文件名，http://www.baidu.com是要爬取的域名，?./tutorial/tutorial/spiders?目錄下生成一個QuoteSpider.py文件。文件內容如下：

修改一下QuoteSpider.py文件：

import?scrapyclass?QuotespiderSpider(scrapy.Spider):
????name?=?'QuoteSpider'#?允許爬取的域名#?allowed_domains?=?['landchina.mnr.gov.cn']
????start_urls?=?['http://landchina.mnr.gov.cn/scjy/tdzr/index_1.htm']def?parse(self,?response):?#?resonse相當于從網絡中返回內容所存儲的或對應的對象
????????fname?=?response.url.split('/')[-1]?#?定義文件名字，把response中的內容寫到一個html文件中with?open(fname,?'wb')?as?f:?#?從響應的url中提取文件名字作為保存為本地的文件名，然后將返回的內容保存為文件
????????????f.write(response.body)???????????
????????self.log('Saved?file?%s.'?%?fname)?#?self.log是運行日志，不是必要的

這個代碼很簡單就是爬取一個頁面，并保存到文件中。

執行tutorial爬蟲項目，在cmd目錄中執行

scrapy?crawl?QuoteSpider

執行日志如下

可以在 tutorial?目錄下看的 index_1.htm 文件；該文件就是爬取到的內容。

☆

往期精彩

☆

01?Sentinel如何進行流量監控

02?Nacos源碼編譯

03?基于Apache Curator框架的ZooKeeper使用詳解

04?spring boot項目整合xxl-job

05?互聯網支付系統整體架構詳解

關注我

每天進步一點點

喜歡！在看?

總結

以上是生活随笔為你收集整理的搭建python_Crawlab准备之python+scrapy环境搭建的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：大顶堆删除最大值_C++｜使用STL算法
下一篇：低通滤波器算法实现_控制算法手记自抗扰控