當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫爬取《斗破苍穹》小说全文

發布時間：2023/12/14 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫爬取《斗破苍穹》小说全文小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

網絡爬蟲的入門學習：python爬蟲爬取小說全文

python爬蟲首先導入基本爬蟲庫requests：import requests,安裝命令pip install requests，使用pycharm可以直接在settings中下載

導入解析HTML標簽的python庫bs4，同樣需要下載，pip install bs4,也可以直接在pycharm的settings中下載，其實在解析HTML代碼中只需要導入BeautifulSoup類就可以實現相應功能，代碼為from bs4 import BeautifulSoup

要永久保存說就需要用到和文件相關的庫os
import os

首先需要創建相應文件來保存小說

if not os.path.exists('D:/斗破蒼穹'):os.mkdir('D:/斗破蒼穹')###創建目錄

設置url,偽裝UA(User-Agent)

url1='https://www.rmxs8.com/10121/' url2='https://www.rmxs8.com/10121_2/' headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' }#使用字典中的鍵值對來替換原本的User-Agent #原小說有兩個網址存放的都是斗破蒼穹的目錄所以需要設置兩個url

對網頁發起請求得到一個response對象

response1=requests.get(url=url1,headers=headers) response2=requests.get(url=url2,headers=headers)

分析網頁HTML標簽，打開網頁抓包工具，進入網頁點擊鼠標右鍵，點擊檢查，就會出現如圖右側：
觀察HTML標簽可以看出小說目錄名都在 <div class=novel_list id=novel10121>的標簽內的<a href="網址">章節標題</a>中，我們需要從HTML代碼中提取出每一章的標題并且通過a標簽中的網址進入詳情頁提取出章節內容，這時就需要用到bs4庫中的BeautifulSoup類

text1=response1.text#返回網頁1HTML代碼 text2=response2.text#...網頁2html... soup1=BeautifulSoup(text1,'lxml') soup2=BeautifulSoup(text2,'lxml') #BeautifulSoup需要傳入兩個參數，一個是HTML代碼，另一個則是需 #要采用的HTML解析器，除了lxml以外還可以使用html.parser（自帶 #解析器），而lxml需要下載lxml庫 a_list1=soup1.select('#novel10121.novel_list a') a_list2=soup2.select('#novel10121.novel_list a') #select方法的層級選擇器，.代表類選擇器，#代表id選擇器，而我們 #需要爬取的小說內容在該類和id的<a>標簽中,空格' '代表跳級選擇 #下一級的選擇需要通過'>'符號來選擇，例如select(#novel10121 # > li)就代表id=novel10121的下一級的li標簽 a_list=a_list1+a_list2 #將所有的a標簽都存入a_list列表中，方便后面的遍歷

遍歷剛才得到的所有a標簽,每一章節的標題都在a標簽中，只需要遍歷列表，取出每一章節的名字，創建txt文件保存，并且得到詳情頁的網址，進行訪問得到小說的內容保存至文件中

for a in a_list:chapter_title=a.string#string可以獲取<a>標簽里的文本內容chapter_url=a['href']#觀察可得網址總是在<a>標簽的href中,將其中網址取出即可chapter_response=resquests.get(url=chapter_url,headers=headers)#獲取詳情頁的響應對象chapter_soup=Beautiful(chapter_response.text,'lxml')#再次用bs4來解析新獲得的HTML標簽chapter_content=chapter_soup.find('div',class_='content').text#進入詳情頁同樣通過抓包工具發現小說內容都在.content之下只要取出這個div下的所有文本信息就可以完成提取。with open('D:/斗破蒼穹/'+chapter_title+'.txt','w',encoding='utf-8') as fp:fp.write(chapter_content)#將提取的小說內容保存至文件中fp.close()#關閉文件（其實不管也行）chapter_response.close（）#切斷與當前網址的聯系，否則由于程序過于頻繁的訪問網站可能會讓網站誤以為是攻擊行為從而切斷聯系

總結：以上是所有的步驟，下面是完整的代碼，有興趣的小伙伴可以直接復制粘貼運行（但是要確保所有有需要的庫的下載完畢，否則會報一堆錯<#-#>）

import requests import os from bs4 import BeautifulSoup if not os.path.exists('D:/斗破蒼穹'):os.mkdir('D:/斗破蒼穹') url='https://www.rmxs8.com/10121/' headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' } response1=requests.get(url=url,headers=headers) response2=requests.get(url='https://www.rmxs8.com/10121_2/') page_text1=response1.text page_text2=response2.text soup1=BeautifulSoup(page_text1,'lxml') soup2=BeautifulSoup(page_text2,'lxml') a_list1=soup1.select('#novel10121.novel_list a') a_list2=soup2.select('#novel10121.novel_list a') a_list=a_list1+a_list2 for a in a_list:chapter_title=a.stringif chapter_title[0:4]=='斗破蒼穹':title_list=list(chapter_title)for i in range(4):title_list.pop(0)title_str=''for i in range(len(title_list)):title_str+=title_list[i]chapter_title=title_strchapter_url='https://www.rmxs8.com'+a['href']chapter_response=requests.get(url=chapter_url,headers=headers)chapter_text=chapter_response.textchapter_soup=BeautifulSoup(chapter_text,'lxml')chapter_content=chapter_soup.find('div',class_='content').textwith open('D:/斗破蒼穹/'+chapter_title+'.txt','w',encoding='utf-8') as fp:fp.write(chapter_content)fp.close()chapter_response.close()print(chapter_title,'下載完成！！！')

以下是運行結果

總結

以上是生活随笔為你收集整理的python爬虫爬取《斗破苍穹》小说全文的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： android获取悬浮窗权限,Andro
下一篇：如何设置vscode默认谷歌浏览器打开