python网页内容提取神器lxml
生活随笔
收集整理的這篇文章主要介紹了
python网页内容提取神器lxml
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
一、Xpath是什么
XPath 是一門在 XML 文檔中查找信息的語言。XPath 用于在 XML 文檔中通過元素和屬性進(jìn)行導(dǎo)航。
XPath 使用路徑表達(dá)式在 XML 文檔中進(jìn)行導(dǎo)航
-
XPath 包含一個(gè)標(biāo)準(zhǔn)函數(shù)庫
-
XPath 是 XSLT 中的主要元素
-
XPath 是一個(gè) W3C 標(biāo)準(zhǔn)
二、XPath在python內(nèi)容提取中的常用規(guī)則
1.選取節(jié)點(diǎn)
XPath 使用路徑表達(dá)式在 XML 文檔中選取節(jié)點(diǎn)。節(jié)點(diǎn)是通過沿著路徑或者 step 來選取的。
下面列出了最有用的路徑表達(dá)式:
?
在這里插入圖片描述
示例:
?
''' 想最快的入門Python嗎?請搜索:"泉小朵",來學(xué)習(xí)Python最快入門教程。 也可以加入我們的Python學(xué)習(xí)Q群:902936549,看看前輩們是如何學(xué)習(xí)的。 ''' # -*- coding: utf-8 -*- from lxml import etree import requests resp = requests.get('http://www.zuowen.com/dan''yuanzw/xiaoxueyuwen/rj3s/') resp.encoding = 'gbk' html = resp.text doc = etree.HTML(html) # 選取網(wǎng)頁標(biāo)題 print(doc.xpath('//title')[0].text) # “//”從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn) print(doc.xpath('/html/head/title')[0].text) # “/”從根節(jié)點(diǎn)開始提取?
總結(jié)
以上是生活随笔為你收集整理的python网页内容提取神器lxml的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 老机械设计工程师的工作心得
- 下一篇: thinkphp5.1、thinkphp