當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python的网页解析器_Python网页解析器使用实例详解

發(fā)布時(shí)間：2023/12/15 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python的网页解析器_Python网页解析器使用实例详解小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

python 網(wǎng)頁解析器

1、常見的python網(wǎng)頁解析工具有：re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點(diǎn)學(xué)習(xí))以及l(fā)xm庫。

2、常見網(wǎng)頁解析器分類

（1）模糊匹配：re正則表達(dá)式即為字符串式的模糊匹配模式；

（2）結(jié)構(gòu)化解析： BeatufiulSoup、html.parser與lxml，他們都以DOM樹結(jié)構(gòu)為標(biāo)準(zhǔn)，進(jìn)行標(biāo)簽結(jié)構(gòu)信息的提取。

3.DOM樹解釋：即文檔對(duì)象模型（Document Object Model），其樹形標(biāo)簽結(jié)構(gòu)，請(qǐng)見下圖。

所謂結(jié)構(gòu)化解析，就是網(wǎng)頁解析器它會(huì)將下載的整個(gè)HTML文檔當(dāng)成一個(gè)Doucment對(duì)象，然后在利用其上下結(jié)構(gòu)的標(biāo)簽形式，對(duì)這個(gè)對(duì)象進(jìn)行上下級(jí)的標(biāo)簽進(jìn)行遍歷和信息提取操作。

# 引入相關(guān)的包，urllib與bs4，是獲取和解析網(wǎng)頁最常用的庫

from urllib.request import urlopen

from bs4 import BeautifulSoup

# 打開鏈接

html=urlopen("https://www.datalearner.com/website_navi")

# 通過urlopen獲得網(wǎng)頁對(duì)象，將其放入BeautifulSoup中，bsObj存放的目標(biāo)網(wǎng)頁的html文檔

bsObj=BeautifulSoup(html.read())

print(bsObj)

# soup = BeautifulSoup(open(url,'r',encoding = 'utf-8'))

import requests

from bs4 import BeautifulSoup

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }

all_url = 'http://www.mmjpg.com/'

#'User-Agent':請(qǐng)求方式

#'referer':從哪個(gè)鏈接跳轉(zhuǎn)進(jìn)來的

start_html = requests.get(all_url, headers=headers)

#all_url：起始的地址，也就是訪問的第一個(gè)頁面

#headers：請(qǐng)求頭，告訴服務(wù)器是誰來了。

#requests.get：一個(gè)方法能獲取all_url的頁面內(nèi)容并且返回內(nèi)容。

Soup = BeautifulSoup(start_html.text, 'lxml')

#BeautifulSoup：解析頁面

#lxml：解析器

#start_html.text：頁面的內(nèi)容

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持。

總結(jié)

以上是生活随笔為你收集整理的python的网页解析器_Python网页解析器使用实例详解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：多条铁路新线加入春运！快来看看有没有通往
下一篇： 379！米家除螨仪Pro开售配UV紫外