當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python笔记之利用scrapy框架爬取糗事百科首页段子

發(fā)布時(shí)間：2024/1/23 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 python笔记之利用scrapy框架爬取糗事百科首页段子小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

環(huán)境準(zhǔn)備:

scrapy框架（可以安裝anaconda一個(gè)python的發(fā)行版本，有很多庫(kù)）

cmd命令窗口

教程：

創(chuàng)建爬蟲(chóng)項(xiàng)目

scrapy startproject qq #創(chuàng)建了一個(gè)爬蟲(chóng)項(xiàng)目qq

在項(xiàng)目中創(chuàng)建爬蟲(chóng)文件

scrapy genspider -t basic qsbk qiushibaike.com

-t: 后面跟爬蟲(chóng)模板
qiushibaike.com 是開(kāi)始爬取的域名

由于我們?cè)趙indows中操作，所以創(chuàng)建好后，我們可以使用Pycharm打開(kāi)我們的爬蟲(chóng)項(xiàng)目qq ,然后在spiders文件夾中找到我們創(chuàng)建的爬蟲(chóng)文件qsbk.py
編輯改文件

# -*- coding: utf-8 -*- import scrapy #調(diào)用scrapy框架 from qq.items import QqItem #調(diào)用items.py中的容器 from scrapy import Requestclass QsbkSpider(scrapy.Spider):name = 'qsbk'allowed_domains = ['qiushibaike.com']start_urls = ['http://qiushibaike.com/']def start_requests(self):ua = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) ""AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"}yield Request('http://qiushibaike.com/', headers=ua)#對(duì)瀏覽器進(jìn)行偽裝def parse(self, response):item = QqItem()item["content"] = response.xpath('//div[@class="content"]/span/text()').extract()item["link"] = response.xpath('//a[@class="contentHerf"]/@href').extract()yield item #根據(jù)條件提取指定內(nèi)容

編輯items.py文件，添加容器

import scrapyclass QqItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()content = scrapy.Field() #添加容器contentlink = scrapy.Field() #添加容器link

編輯pipelines.py文件

class FirstPipeline(object):def process_item(self, item, spider):return item

最后，我們?cè)诿钚姓{(diào)用該文件
進(jìn)入到我們的項(xiàng)目下，輸入命令

scrapy crawl qsbk

如果沒(méi)有內(nèi)容顯示，我們可以嘗試更改項(xiàng)目下的settings.py文件

將ROBOTSTXT_OBEY = True 改為ROBOTSTXT_OBEY = False 并將下面的內(nèi)容去注釋 ITEM_PIPELINES = {'qq.pipelines.QqPipeline': 300, }

至此，我們利用框架進(jìn)行簡(jiǎn)單爬蟲(chóng)就完成了！

總結(jié)

以上是生活随笔為你收集整理的python笔记之利用scrapy框架爬取糗事百科首页段子的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python笔记之scrapy
下一篇： kali安装vmtools不能拖拽（复制