當前位置：首頁 > 编程语言 > python >内容正文

python

python笔记之scrapy

發布時間：2024/1/23 python 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 python笔记之scrapy 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Scrapy的基本命令

基本命令分兩種: 全局命令和項目命令

全局命令(在命令行中執行的指令)

fetch
主要用來顯示爬蟲爬取的過程

scrapy fetch http://www.taobao.com

如果他在scrapy項目之外使用,會調用scrapy默認的爬蟲進行網頁的爬取
如果他在scrapy項目中使用,會使用scrapy項目中的爬蟲進行網頁的爬取

runspider
不依托scrapy項目來直接運行一個爬蟲文件
創建first.py文件編寫代碼,執行指令

scrapy runspider first.py from scrapy.spider import Spiderclass FirstSpider(Spider):name = "first" # 爬蟲名allowed_domains = ["baidu.com"] # 設置允許爬取的域名start_urls = ["http://www.baidu.com" # 設置爬取的起始網頁# 可以有多個]def parse(self, response):pass

settings
查看scrapy默認的配置信息
如果是在項目下查看,是項目的配置信息

shell
啟動scrapy的交互終端,shell經常在開發以及調試中用到
使用scrapy的交互終端,可以在不啟動scrapy爬蟲的情況下,對網站響應進行調試
也可以在交互終端中寫一些python的代碼

scrapy shell http://www.baidu.com --nolog ti = sel.xpath("/html/head/title") print(ti)

startproject
用于創建一個scrapy爬蟲項目

scrapy startproject first

version
查看scrpay的版本信息

scrapy version

view
下載某個網頁并用瀏覽器查看

scrapy view http://www.baidu.com

項目命令(在scrapy項目中執行的指令)

bench
可以測試本地硬件性能,會創建一個本地服務器并且以最大的爬行速度爬行

scrapy bench

genspider
用于在項目下創建爬蟲文件
使用該指令可以基于現有爬蟲模板來生成一個爬蟲文件

-l 來查看當前可以使用的模板 scrapy genspider -l -t 使用某個爬蟲模板來生成一個爬蟲文件 scrapy genspider -t basic txl baidu.com txl : 爬蟲文件名 baidu.com : 可以爬取的域名

crawl
使用crawl指令可以啟動某一個爬蟲

scrapy scrawl 爬蟲名

list
使用list命令來列出當前項目可使用的爬蟲文件

scrapy list

edit
使用edit指令直接打開對應的編輯器對爬蟲文件進行編寫
這條指令對linux比較友好
對windows沒什么卵用,因為會出現問題

scrapy edit 爬蟲名

總結

以上是生活随笔為你收集整理的python笔记之scrapy的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python之.py生成.exe可执行文
下一篇： python笔记之利用scrapy框架爬