ubuntu下scrapyd部署爬虫项目
scrapyd部署爬蟲的優(yōu)勢:
1、方便監(jiān)控爬蟲的實(shí)時運(yùn)行狀態(tài),也可以通過接口調(diào)用開發(fā)自己的監(jiān)控爬蟲的頁面
2、方便統(tǒng)一管理,可以同時啟動或關(guān)閉多個爬蟲
3、擁有版本控制,如果爬蟲出現(xiàn)了不可逆的錯誤,可以通過接口恢復(fù)到之前的任意版本
注意:在安裝scrapyd之前要確保你的環(huán)境能夠運(yùn)行scrapy(無論集成環(huán)境還在虛擬環(huán)境)
在這里我使用的是虛擬環(huán)境API部署(上傳)工程,并且控制工程中的爬蟲。
1.安裝scrapyd
pip install scrapyd
1
2.創(chuàng)建一個目錄用于存放爬蟲項(xiàng)目的數(shù)據(jù)文件
3 cd到創(chuàng)建的目錄下,之所以到這個目錄下運(yùn)行scrapyd是因?yàn)檫\(yùn)行時候會在這個目錄下產(chǎn)生一個dbs的文件
4 執(zhí)行scrapyd
目錄下會出現(xiàn)dbs一個文件夾
瀏覽器訪問 127.0.0.1:6800
5 安裝scrapyd-clien 用于打包
6.拷貝scrapyd-deploy 到爬蟲項(xiàng)目下
7 修改項(xiàng)目中的scrapy.cfg 文件
8.執(zhí)行scrapyd-deploy -l 啟動服務(wù),可以看到設(shè)置的名稱
9.開始打包前,執(zhí)行一個命令:scrapy list ,這個命令執(zhí)行成功說明可以打包了,如果沒執(zhí)行成功說明還有工作沒完成
返回了爬蟲名稱說明一切ok了.
10.執(zhí)行打包命令: scrapyd-deploy 部署名稱 -p 項(xiàng)目名稱
此時說明打包成功
11.輸入開啟爬蟲命令
curl http://localhost:6800/schedule.json -d project=項(xiàng)目名稱 -d spider=爬蟲名稱
如果缺少curl, 那么就 sudo apt install surl 安裝
停止爬蟲
curl http://localhost:6800/cancel.json -d project=scrapy項(xiàng)目名稱 -d job=運(yùn)行ID
刪除scrapy項(xiàng)目
注意:一般刪除scrapy項(xiàng)目,需要先執(zhí)行命令停止項(xiàng)目下在遠(yuǎn)行的爬蟲
curl http://localhost:6800/delproject.json -d project=scrapy項(xiàng)目名稱
查看有多少個scrapy項(xiàng)目在api中
curl http://localhost:6800/listprojects.json
查看指定的scrapy項(xiàng)目中有多少個爬蟲
curl http://localhost:6800/listspiders.json?project=scrapy項(xiàng)目名稱
總結(jié)幾個請求url
1、獲取狀態(tài)
http://127.0.0.1:6800/daemonstatus.json
2、獲取項(xiàng)目列表
http://127.0.0.1:6800/listprojects.json
3、獲取項(xiàng)目下已發(fā)布的爬蟲列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、獲取項(xiàng)目下已發(fā)布的爬蟲版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、獲取爬蟲運(yùn)行狀態(tài)
http://127.0.0.1:6800/listjobs.json?project=myproject
6、啟動服務(wù)器上某一爬蟲(必須是已發(fā)布到服務(wù)器的爬蟲)
http://127.0.0.1:6800/schedule.json (post方式,data={“project”:myproject,”spider”:myspider})
7、刪除某一版本爬蟲
http://127.0.0.1:6800/delversion.json
(post方式,data={“project”:myproject,”version”:myversion})
8、刪除某一工程,包括該工程下的各版本爬蟲
http://127.0.0.1:6800/delproject.json(post方式,data={“project”:myproject})
-------------------
總結(jié)
以上是生活随笔為你收集整理的ubuntu下scrapyd部署爬虫项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些奇妙的线段树操作
- 下一篇: (四)RabbitMQ消息队列-服务详细