python笔记之利用scrapy框架爬取糗事百科首页段子
生活随笔
收集整理的這篇文章主要介紹了
python笔记之利用scrapy框架爬取糗事百科首页段子
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
環(huán)境準(zhǔn)備:
教程:
-t: 后面跟爬蟲(chóng)模板
qiushibaike.com 是開(kāi)始爬取的域名
編輯改文件
編輯items.py文件,添加容器
import scrapyclass QqItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()content = scrapy.Field() #添加容器contentlink = scrapy.Field() #添加容器link編輯pipelines.py文件
class FirstPipeline(object):def process_item(self, item, spider):return item最后,我們?cè)诿钚姓{(diào)用該文件
進(jìn)入到我們的項(xiàng)目下,輸入命令
如果沒(méi)有內(nèi)容顯示,我們可以嘗試更改項(xiàng)目下的settings.py文件
將ROBOTSTXT_OBEY = True 改為ROBOTSTXT_OBEY = False 并將下面的內(nèi)容去注釋 ITEM_PIPELINES = {'qq.pipelines.QqPipeline': 300, }至此,我們利用框架進(jìn)行簡(jiǎn)單爬蟲(chóng)就完成了!
總結(jié)
以上是生活随笔為你收集整理的python笔记之利用scrapy框架爬取糗事百科首页段子的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python笔记之scrapy
- 下一篇: kali安装vmtools不能拖拽(复制