DOM+XPath提取规则注记!
下面是使用DOM+Xpath提取html中頁面時經(jīng)常使用的Xpath規(guī)則的一些示例:
XPath相關(guān)的規(guī)則
沒有屬性 //B[not(@*)]
沒有類屬性 //B[not(@class)]
要求鏈接有title屬性 //a[@title]
選取最后一個節(jié)點(diǎn) //p[last()]/a
要求有“title”值的class屬性和沒有class屬性的節(jié)點(diǎn)集合表示如下:
//ul[@class='ulTxt']/li[@class='title' or not(@class)]/a
//div[@class='yunc mb10' or @class='yuer mb10']
//script[@type='text/javascript' and not(@src)]
沒有指定屬性值的節(jié)點(diǎn)集
//div[@class!='FocusTitle_12px']
獲取第一個列表鏈接://ul[@class='authorbox']/li[1]
如果標(biāo)簽內(nèi)還包含其它的子標(biāo)簽,現(xiàn)在我們不想要格式信息,只想要其內(nèi)嵌套的內(nèi)容,直接用$href->nodeValue,獲取對應(yīng)節(jié)點(diǎn)名稱使用$href->nodeName
總結(jié)
以上是生活随笔為你收集整理的DOM+XPath提取规则注记!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu 12.04 64bit或者
- 下一篇: Notepad++ 列操作