當前位置：首頁 > 编程语言 > python >内容正文

python

Python简单网页爬取

發布時間：2023/12/29 python 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python简单网页爬取小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用Python爬取簡單數據
閑暇時間學習Python,不管以后能否使用，就算了解計算機語言知識。
因為有一點Java基礎，所以Python的基本語法就很快的過了一遍，表達或許有點混亂，以后慢慢改進。
一、導入爬取網頁所需的包。

from bs4 import BeautifulSoup #網頁解析 import xlwt #excel import re #正則表達式 import urllib.request,urllib.error #指定url,獲取網頁數據

二、Python屬于腳本語言，沒有類似Java的主入口（main）,對于這里理解不是很深，就是給這個類添加一個主入口的意思吧。

if __name__ == '__main__':main()

三、接著在定義主函數main()，主函數里應包括

所需爬取的網頁地址

得到網頁數據，進行解析舍取

將得到的數據保存在excel中

def main():#指定所需爬取網頁路徑basePath = "https://www.duquanben.com/"#獲取路徑dataList = getData(basePath)#保存數據saveData(dataList)

四、需對爬取網頁進行數據的采集

因為使用的Pycharm軟件來進行爬取，首先需要進行下偽裝，將瀏覽器的代理信息取出待解析網頁數據時，使用此信息進行偽裝

五、定義獲取數據方法

進入網頁取數據，需得到網頁認可（解析網頁）

def getData(basePath):#解析數據html = uskURL(basePath)

uskURL方法有點類似于死方法，根據瀏覽器的不同，改變下用戶代理人信息即可

def uskURL(basePath):heard = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0" #偽裝為瀏覽器}req=urllib.request.Request(basePath,headers=heard,method="GET")html = ""try:response=urllib.request.urlopen(req)html = response.read()except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html

3、準備集合裝載數據，解析網頁數據，匹對正則表達式
可以看出爬取的數據由

標簽包裹，所以只需遍歷循環此標簽即可。

#正則表達式定義為全局變量 link = re.compile(r'<h5><a href="(.*)" target="_blank">') author = re.compile(r'作者：(.*)') content = re.compile(r'<p><a href="(.*)" target="_blank">(.*?)</a></p>',re.S) #re.S表示忽略換行符等def getData(basePath):#解析數據html = uskURL(basePath)#解析網頁數據bs = BeautifulSoup(html,"html.parser")#t_list=bs.find_all("div",class_="hot-img") #因為class是一個類別，所以需要加一個下劃線，不然會報錯<div class="hot-img">#print(t_list)# 裝數據的集合datalist = []for item in bs.find_all("div",class_="hot-img"):data = [] #另準備一個集合裝取數據item = str(item) #轉化為字符串linklist = re.findall(link, item) #findall（1，2）1表示正則表達式，2表示所要匹對的字符串#print(linklist)data.append(linklist)authorlist = re.findall(author,item)data.append(authorlist)#print(authorlist)contentlist = re.findall(content,item)[0][1] #contentlist里我們只需要第二個數據，將他看作為二維數組，后面對應取值即可if contentlist == "": #無字符串時，根據自己想法而定data.append("暫無簡介")else:data.append(contentlist)datalist.append(data)#print(datalist)return datalist

六、將得到的數據保存在excel中

def saveData(dataList):Book=xlwt.Workbook(encoding="utf-8",style_compression=0)#style_compression:表示是否壓縮，不常用sheet=Book.add_sheet("小說.xls",cell_overwrite_ok=True)#cell_overwrite_ok，表示是否可以覆蓋單元格line = ("詳情鏈接","筆名","簡介")for item in range(len(line)): #此處循環如果line里只有一個字符串，那么生成的xls里，只會出現一個‘詳’字#print(len(line))sheet.write(0,item,line[item])#wirte(row, col, *args)for i in range(len(dataList)):#第一次循環應是將行數，有多少數據有多少行data=dataList[i] #每一條數據應該放在一行里，所以將在一次進行for循環for j in range(len(line)):sheet.write(i+1,j,data[j])Book.save("測試.xls")

總結

以上是生活随笔為你收集整理的Python简单网页爬取的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GEWorker界面展示及功能组成介绍，
下一篇： python批量爬取下载网易云音乐