當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

抽屉新热榜html源码,利用scrapy获取抽屉新热榜的标题和内容以及新闻地址保存到本地...

發布時間：2023/12/20 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了抽屉新热榜html源码,利用scrapy获取抽屉新热榜的标题和内容以及新闻地址保存到本地... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、安裝scrapy

pip3 install scrapy

2、打開terminal，cd 到想要創建程序的目錄下

3、創建一個scrapy項目

在終端輸入：scrapy startproject my_first_scrapy(項目名)

4、在終端輸入：cd?my_first_scrapy? 進入到項目目錄下

5、新建爬蟲：

輸入： scrapy genspider chouti chouti.com? (chouti: 爬蟲名稱， chouti.com : 要爬取的網站的起始網址)

6、在pycharm中打開my_first_scrapy，就可以看到剛才創建的項目:

7、打開settings.py可以對項目相關參數進行設置，如設置userAgent:

8、打開chouti.py編寫代碼：

#-*- coding: utf-8 -*-

"""獲取抽屜新熱榜的標題和內容以及新聞地址保存到本地"""

importscrapyfrom scrapy.http importRequestfrom scrapy.http.response.html importHtmlResponsefrom ..items importMyFirstScrapyItemclassChoutiSpider(scrapy.Spider):

name= 'chouti'allowed_domains= ['chouti.com']

start_urls= ['http://chouti.com/']defparse(self, response):#print(response, type(response)) #

#print(response.text)

#解析文本內容，提取標題和簡介,地址

#去頁面中找id=content-list的div標簽,再去這個div下找class=item的div

items = response.xpath("//div[@id='content-list']/div[@class='item']")#"//"表示從html文件的根部開始找。"/"表示從兒子里面找。".//"表示相對的，及當前目錄下的兒子里面找

for item initems:#當前目錄下找class=part1的div標簽，再找div標簽下的a標簽的文本信息text(),并且只取第一個

#a標簽后面可以加索引，表示取第幾個a標簽，如第一個：a[0]

title = item.xpath(".//div[@class='part1']/a/text()").extract_first().strip() #去掉標題兩端的空格

href = item.xpath(".//div[@class='part1']/a/@href").extract_first().strip() #取href屬性

summary = item.xpath(".//div[@class='area-summary']/span/text()").extract_first()#print(1, title)

#print(2, href)

#print(3, summary)

item_obj = MyFirstScrapyItem(title=title, href=href, summary=summary) #實例化

yield item_obj #將數據交給pipelines

#獲取頁碼

page_list = response.xpath("//div[@id='dig_lcpage']//a/@href").extract()for url inpage_list:

url= "https://dig.chouti.com%s" %urlyield Request(url=url, callback=self.parse) #下載頁面內容

View Code

9、打開items.py寫代碼：

#-*- coding: utf-8 -*-

#Define here the models for your scraped items#

#See documentation in:#https://doc.scrapy.org/en/latest/topics/items.html

importscrapyclassMyFirstScrapyItem(scrapy.Item):#define the fields for your item here like:

#name = scrapy.Field()

#規則化:將要持久化的數據轉化為某種格式

title =scrapy.Field()

href=scrapy.Field()

summary= scrapy.Field()

View Code

10、打開pipelines.py寫代碼:

"""1、先去類中找from_crawler

有：執行且必須返回一個當前類的對象

沒有：不執行，則去執行構造方法__init__(self)并返回一個對象

2、再去執行"對象.其他方法""""

classMyFirstScrapyPipeline(object):def __init__(self, file_path):

self.f=None

self.file_path=file_path

@classmethoddeffrom_crawler(cls, crawler):"""初始化時，用于創建pipelines對象

:param crawler:

:return:"""file_path= crawler.settings.get("CHOUTI_NEWS_PATH") #存儲文件的路徑

returncls(file_path)defopen_spider(self, spider):"""打開文件

:param spider:提交數據過來的爬蟲對象

:return:"""self.f= open(self.file_path, "a+", encoding="utf-8")defprocess_item(self, item, spider):""":param item: 爬蟲中yield過來的item對象

:param spider:提交數據過來的爬蟲對象

:return:"""self.f.write(item["href"] + "\n")

self.f.flush()#將內容強刷到硬盤進行保存

returnitemdefclose_spider(self, spider):"""關閉文件

:param spider:提交數據過來的爬蟲對象

:return:"""self.f.close()

View Code

11、在settings.py中找到?ITEM_PIPELINES進行設置，并設置存儲下載的新聞存儲的文件路徑：

12、運行爬蟲項目，在終端輸入：

scrapy crawl chouti(會打印日志)? 或者 scrapy crawl chouti --nolog (不打印日志)

總結

以上是生活随笔為你收集整理的抽屉新热榜html源码,利用scrapy获取抽屉新热榜的标题和内容以及新闻地址保存到本地...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java爬虫之下载IMDB中Top250
下一篇：清明节游戏服务器维护,《梦幻西游2》4月