當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath

發布時間：2024/7/19 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

解析神器Xpath：

1. 什么是Xpath

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。
XPath基于XML的樹狀結構，提供在數據結構樹中找尋節點的能力。起初XPath的提出的初衷是將其作為一個通用的、介于XPointer與XSL間的語法模型。但是XPath很快的被開發者采用來當作小型查詢語言。
可以閱讀該文檔了解更多關于Xpath的知識。

2. Xpath解析網頁的流程

首先通過Requests庫獲取網頁數據
通過網頁解析，得到想要的數據或者新的鏈接
網頁解析可以通過Xpath或者其它解析工具進行，Xpath在是一個非常好用的網頁解析工具

3. 常用的網頁解析

正則表達式使用比較困難，學習成本較高
BeautifulSoup性能較慢，相對于Xpath較難，在某些特定場景下有用
Xpath使用簡單，速度快（Xpath是lxml里面的一種），是抓取數據最好的選擇

Xpath的使用：

1. 使用Xpath解析網頁數據的步驟

從lxml導入etree
解析數據，返回xml結構
使用.xpath()尋找和定位數據

from

2. 獲取Xpath的方法

第一種方法：從瀏覽器直接復制
首先在瀏覽器上定位到需要爬取的數據
右鍵，點擊“檢查”，在“Elements”下找到定位到所需數據
右鍵——Copy——Copy Xpath，即可完成Xpath的復制

第二種方法：手寫Xpath

獲取文本內容用 text()
獲取注釋用 comment()
獲取其它任何屬性用@xx，如：
href
src
value
想要獲取某個標簽下所有的文本（包括子標簽下的文本），使用string
如”< p>123< a>來獲取我啊< /a>< /p>”，這邊如果想要得到的文本為”123來獲取我啊”，則需要使用string
starts-with 匹配字符串前面相等
contains 匹配任何位置相等

附錄

Xpath教程

閱讀Xpath教程，掌握Xpath的基本知識

Xpath的基本使用

閱讀爬蟲入門到精通-網頁的解析（xpath），參考Xpath的使用方法
閱讀Python爬蟲利器三之Xpath語法與lxml庫的用法，了解更多Xpath的使用方法示例

正則表達式

閱讀Python正則表達式，了解正則表達式及其基本的語法
閱讀爬蟲入門到精通-網頁的解析（正則），學習使用正則表達式匹配網頁數據

BeautifulSoup

閱讀Beautiful Soup 中文教程，了解使用BeautifulSoup解析網頁的方法
閱讀Beautiful Soup 4.2.0 文檔這篇BeautifulSoup的官方文檔，了解其更加全面的用法

總結

以上是生活随笔為你收集整理的beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： linux网络配置_linux复制和网络
下一篇： linux vim下删除一行和多行