beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath
生活随笔
收集整理的這篇文章主要介紹了
beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
解析神器Xpath:
1. 什么是Xpath
XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。XPath基于XML的樹狀結構,提供在數據結構樹中找尋節點的能力。起初XPath的提出的初衷是將其作為一個通用的、介于XPointer與XSL間的語法模型。但是XPath很快的被開發者采用來當作小型查詢語言。
可以閱讀該文檔了解更多關于Xpath的知識。
2. Xpath解析網頁的流程
- 首先通過Requests庫獲取網頁數據
- 通過網頁解析,得到想要的數據或者新的鏈接
- 網頁解析可以通過Xpath或者其它解析工具進行,Xpath在是一個非常好用的網頁解析工具
3. 常用的網頁解析
- 正則表達式使用比較困難,學習成本較高
- BeautifulSoup性能較慢,相對于Xpath較難,在某些特定場景下有用
- Xpath使用簡單,速度快(Xpath是lxml里面的一種),是抓取數據最好的選擇
Xpath的使用:
1. 使用Xpath解析網頁數據的步驟
- 從lxml導入etree
- 解析數據,返回xml結構
- 使用.xpath()尋找和定位數據
2. 獲取Xpath的方法
- 第一種方法:從瀏覽器直接復制
- 首先在瀏覽器上定位到需要爬取的數據
- 右鍵,點擊“檢查”,在“Elements”下找到定位到所需數據
- 右鍵——Copy——Copy Xpath,即可完成Xpath的復制
- 第二種方法:手寫Xpath
- 獲取文本內容用 text()
- 獲取注釋用 comment()
- 獲取其它任何屬性用@xx,如:
href
src
value - 想要獲取某個標簽下所有的文本(包括子標簽下的文本),使用string
如”< p>123< a>來獲取我啊< /a>< /p>”,這邊如果想要得到的文本為”123來獲取我啊”,則需要使用string - starts-with 匹配字符串前面相等
- contains 匹配任何位置相等
附錄
Xpath教程
- 閱讀Xpath教程,掌握Xpath的基本知識
Xpath的基本使用
- 閱讀爬蟲入門到精通-網頁的解析(xpath),參考Xpath的使用方法
- 閱讀Python爬蟲利器三之Xpath語法與lxml庫的用法,了解更多Xpath的使用方法示例
正則表達式
- 閱讀Python正則表達式,了解正則表達式及其基本的語法
- 閱讀爬蟲入門到精通-網頁的解析(正則),學習使用正則表達式匹配網頁數據
BeautifulSoup
- 閱讀Beautiful Soup 中文教程,了解使用BeautifulSoup解析網頁的方法
- 閱讀Beautiful Soup 4.2.0 文檔這篇BeautifulSoup的官方文檔,了解其更加全面的用法
總結
以上是生活随笔為你收集整理的beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux网络配置_linux复制和网络
- 下一篇: linux vim下删除一行和多行