html的混合标记,HTML XPath:提取与多个标签混合的文本?
生活随笔
收集整理的這篇文章主要介紹了
html的混合标记,HTML XPath:提取与多个标签混合的文本?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目標:從特定元素(例如li)中提取文本,而忽略各種混合在標簽中的內容,即展平第一級子級,并簡單地分別返回每個展平型子級的串聯文本。
例:
CIA
所需文字:
Central Intelligence Agency
Culinary Institute of America
除了周圍的定位標記阻止簡單的檢索。
為了分別返回每個li標簽,我們使用簡單的方法:
//div[contains(@id,"mw-content-text")]/ol/li
但這還包括周圍的錨標簽等。
//div[contains(@id,"mw-content-text")]/ol/li/text()
僅返回屬于li的直接子元素的文本元素,即’Central’,’.’…
然后尋找自我和后代的文本元素似乎合乎邏輯
//div[contains(@id,"mw-content-text")]/ol/li[descendant-or-self::text]
但這根本沒有任何回報!
有什么建議?我正在使用Python,因此可以使用其他模塊進行后期處理。
(我正在使用似乎符合XPath 1.0的Scrapy HtmlXPathSelector)
總結
以上是生活随笔為你收集整理的html的混合标记,HTML XPath:提取与多个标签混合的文本?的全部內容,希望文章能夠幫你解決所遇到的問題。