當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用xpath爬取数据

發布時間：2024/1/1 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了使用xpath爬取数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用xpath來提取數據，爬取數據的簡單語法。

pip install lxml

from lxml import etree

/li/a/@href 這樣取的應該是href的內容 /li/a/text() 這樣取得是text內容

h=etree.HTML(response.text)#response.text是網頁的源碼 h.xpath('//img') #尋找所有的img結點, h.xpath('//div').xpath('.//img')#尋找所有div下的所有img結點

符號
XPath 使用路徑表達式在 XML 文檔中選取節點。節點是通過沿著路徑或者 step 來選取的。

表達式描述

/	從根節點選取
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前節點。
. .	選取當前節點的父節點。
@	選取屬性。
\|	在兩個中結點中選擇
（）	用()來包含\|
*	包含所有元素
not	取反

實例

路徑表達式結果

bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。注釋：假如路徑起始于正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬于 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book	選擇屬于 bookstore 元素的后代的所有 book 元素，而不管它們位于 bookstore 之下的什么位置。
//@lang	選取名為 lang 的所有屬性。
//*[@class]	選取帶有class屬性的所有元素
//div[@*]	匹配任意屬性的div元素
//a[not(@class)]	匹配沒有class屬性的a元素

謂語
帶謂語的路徑表達式

路徑表達式結果

/bookstore/book[1]	選取屬于 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬于 bookstore 子元素的最后一個 book 元素。
/bookstore/book[last()-1]	選取屬于 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()< 3]	選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=‘eng’]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大于 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大于 35.00。

到這里就結束了，如果對你有幫助你，歡迎點贊關注，你的點贊對我很重要

以上是生活随笔為你收集整理的使用xpath爬取数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。