正则 ?= 和 ?= 用法 以及零宽断言等概念
正則 ?<=? 和 ?= 用法
?參考網(wǎng)址:http://baike.baidu.com/link?url=2zORJF9GOjU8AkmuHDLz9cyl9yiL68PdW3frayzLwWQhDvDEM51V_CcY_g1mZ7OPdcq8exFSiLusZwODAos5C_
http://www.cnblogs.com/xiashengwang/p/3988573.html??
http://www.cnblogs.com/symbol441/articles/957950.html?
文本:?
<br/>您好,非常好,很開心認識你 <br/><a target=_blank href="www.baidu.com">百度一下</a>百度才知道 <br/><a target=_blank href="/view/fafa.htm">發(fā)發(fā)</ a>最佳帥哥 <br/><a target=_blank href="/view/lili.htm">麗麗</ a>最佳美女 <br/>?
方法1: 匹配,捕獲(存儲)
?正則表達式:(?<=(href=")).{1,200}(?=(">))
? ? ? ?解釋:(?<=(href=")) 表示 匹配以(href=")開頭的字符串,并且捕獲(存儲)到分組中
? ? ? ? ? ? ? ?(?=(">))?表示 匹配以(">)結(jié)尾的字符串,并且捕獲(存儲)到分組中
?匹配結(jié)果:
?
方法2: 匹配,不捕獲(不存儲)
?正則表達式:(?<=(?:href=")).{1,200}(?=(?:">))
? ? ? ?解釋:(?<=(?:href=")) 表示?匹配以(href=")開頭的字符串,并且不捕獲(不存儲)到分組中
? ? ? ? ? ? ? ?(?=(?:">))?表示?匹配以(">)結(jié)尾的字符串,并且不捕獲(不存儲)到分組中
?匹配結(jié)果:
?
?
?
| (?:pattern)? | 非獲取匹配,匹配pattern但不獲取匹配結(jié)果,不進行存儲供以后使用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。 |
| (?=pattern) | 非獲取匹配,正向肯定預(yù)查,在任何匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預(yù)查不消耗字符,也就是說,在一個匹配發(fā)生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開始。 |
| (?!pattern) | 非獲取匹配,正向否定預(yù)查,在任何不匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。 |
| (?<=pattern) | 非獲取匹配,反向肯定預(yù)查,與正向肯定預(yù)查類似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。 |
| (?<!pattern) | 非獲取匹配,反向否定預(yù)查,與正向否定預(yù)查類似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。這個地方不正確,有問題? |
?
?
一.概念
【分組】 我們已經(jīng)提到了怎么重復(fù)單個字符(直接在字符后面加上限定符就行了);但如果想要重復(fù)一個字符串又該怎么辦?你可以用小括號來指定子表達式(也叫做分組),然后你就可以指定這個子表達式的重復(fù)次數(shù)了,你也可以對子表達式進行其它一些操作(后面會有介紹)。(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:
\d{1,3}匹配1到3位的數(shù)字,(\d{1,3}\.}{3}匹配三位數(shù)字加上一個英文句號(這個整體也就是這個分組)重復(fù)3次,最后再加上一個一到三位的數(shù)字(\d{1,3})。
不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每個數(shù)字都不能大于255)。如果能使用算術(shù)比較的話,或許能簡單地解決這個問題,但是正則表達式中并不提供關(guān)于數(shù)學(xué)的任何功能,所以只能使用冗長的分組,選擇,字符類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解這個表達式的關(guān)鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這里我就不細說了,你自己應(yīng)該能分析得出來它的意義。
【后向引用】 使用小括號指定一個子表達式后,匹配這個子表達式的文本可以在表達式或其它程序中作進一步的處理。默認情況下,每個分組會自動擁有一個組號,規(guī)則是:從左向右,以分組的左括號為標志,第一個出現(xiàn)的分組的組號為1,第二個為2,以此類推。
后向引用用于重復(fù)搜索前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看示例:
\b(\w+)\b\s+\1\b可以用來匹配重復(fù)的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結(jié)束處之間的多于一個的字母或數(shù)字(\b(\w+)\b),然后是1個或幾個空白符(\s+),最后是前面匹配的那個單詞(\1)。
你也可以自己指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內(nèi)容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。
使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:
分組語法 捕獲 (exp) 匹配exp,并捕獲文本到自動命名的組里 (?<name>exp) 匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp) (?:exp) 匹配exp,不捕獲匹配的文本 位置指定 (?=exp) 匹配exp前面的位置 (?<=exp) 匹配exp后面的位置 (?!exp) 匹配后面跟的不是exp的位置 (?<!exp) 匹配前面不是exp的位置 注釋 (?#comment) 這種類型的組不對正則表達式的處理產(chǎn)生任何影響,只是為了提供讓人閱讀注釋
我們已經(jīng)討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內(nèi)容不會像前兩種那樣被捕獲到某個組里面。
位置指定 接下來的四個用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西,也就是說它們用于指定一個位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:
(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結(jié)尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時,它會匹配sing和danc。
(?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading。
假如你想要給一個很長的數(shù)字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表達式,它可能不像你第一眼看出來的那么簡單。
下面這個例子同時使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數(shù)字(再次強調(diào),不包括這些空白符)。
負向位置指定 前面我們提到過怎么查找不是某個字符或不在某個字符類里的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現(xiàn),但并不想去匹配它時怎么辦?例如,如果我們想查找這樣的單詞--它里面出現(xiàn)了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:
\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發(fā)現(xiàn),如果q出現(xiàn)在單詞的結(jié)尾的話,像Iraq,Benq,這個表達式就會出錯。這是因為[^u]總是匹配一個字符,所以如果q是單詞的最后一個字符的話,后面的[^u]將會匹配q后面的單詞分隔符(可能是空格,或者是句號或其它的什么),后面的\w*\b將會匹配下一個單詞,于是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因為它只匹配一個位置,并不消費任何字符。現(xiàn)在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。
零寬負向先行斷言(?!exp),只會匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數(shù)字,而且這三位數(shù)字的后面不能是數(shù)字。
同理,我們可以用(?<!exp),零寬負向后行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數(shù)字(實驗時發(fā)現(xiàn)錯誤?注意你的“區(qū)分大小寫”先項是否選中)。
一個更復(fù)雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標簽內(nèi)里的內(nèi)容。(<?(\w+)>)指定了這樣的前綴:被尖括號括起來的單詞(比如可能是<b>),然后是.*(任意的字符串),最后是一個后綴(?=<\/\1>)。注意后綴里的\/,它用到了前面提過的字符轉(zhuǎn)義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內(nèi)容,這樣如果前綴實際上是<b>的話,后綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內(nèi)容(再次提醒,不包括前綴和后綴本身)。
二.實際運用
現(xiàn)在網(wǎng)絡(luò)上現(xiàn)在很流行的爬蟲程序,其實就是根據(jù)正則表達式來對網(wǎng)頁進行解析匹配獲取有用信息分組并存儲下來的. 像網(wǎng)頁上最多的就是像<table>,<tr>,<td>之類的標簽,而相對于我們用戶而言,這些都是沒有任意意義的,有意義的是其中所包含的值.如<a href="http://www.163.com">網(wǎng)易</a>我所所關(guān)心的就是其href屬性當中的值,還有就是其文字結(jié)點的值.其它的對于我們來說沒有任何意義.這就要運用到我們所說的正確表達式匹配了. 不過如果我們只是針對取某一個標簽的結(jié)點值,我們可以通過javascript+DOM方法把他們?nèi)〕鰜?不過要是不是一類而是要求全部內(nèi)空當中去取,那樣用DOM動態(tài)解析的方式就顯著有時不好用了. 下同說一個我運用的實例吧 我有一個頁面:
?
<p> 11-13?? <a?? href=/bj/11/109/4969873.html?? target=_blank> 中介?? -?? 3400元/3居?? -?? 紫竹橋兵器大廈附近大三居?? (紫竹院)?? </a> <p> 11-13?? <a?? href=/bj/11/104/4969872.html?? target=_blank> 1200元/3居?? -?? 出租上地三居室合住(免中介費)?? (上地)?? </a> <p> 11-13?? <a?? href=/bj/11/114/4969866.html?? target=_blank> 中介?? -?? 2600元/2居?? -?? 北太平莊43號院二居出租?? (北太平莊)?? </a> <p> 11-13?? <a?? href=/bj/11/914/4969865.html?? target=_blank> 400元/1居?? -?? 單間獨立衛(wèi)浴免供暖費?? (北七家)?? </a> <p> 11-13?? <a?? href=/bj/11/301/4969864.html?? target=_blank> 中介?? -?? 2400元/2居?? -?? 東直門春秀路太平莊南里二居室出租?? (東直門外三里屯工人體育館)?? </a> <p> 11-13?? <a?? href=/bj/11/208/4969863.html?? target=_blank> 中介?? -?? 2400元/4居?? -?? 出租定福家園新房四居室?? (團結(jié)湖)?? </a> <p> 11-13?? <a?? href=/bj/11/214/4969862.html?? target=_blank> 中介?? -?? 2600元/3居?? -?? 花家地北里三室一廳出租?? (酒仙橋 將臺路)?? </a> <p> 11-13?? <a?? href=/bj/11/209/4969859.html?? target=_blank> 1300元/1居?? -?? 十里堡華堂附近新公寓合租?? (京廣橋 紅廟 八里莊)?? </a> <p> 11-13?? <a?? href=/bj/11/70/4969846.html?? target=_blank> 中介?? -?? 600元/3居?? -?? 出租豐益橋西盛鑫家園4室2廳2衛(wèi)精裝修的房子(免收中介費?? (豐益橋西盛鑫家園)?? </a> <p> 11-13?? <a?? href=/bj/11/901/4969844.html?? target=_blank> 750元/3居?? -?? 田園風光雅園3居中的一居室出租?? (回龍觀)?? </a> <p> 11-13?? <a?? href=/bj/11/1101/4969840.html?? target=_blank> 350元/1居?? -?? 找一女孩跟我合租?? (亦莊)?? </a> <p> 11-13?? <a?? href=/bj/11/102/4969839.html?? target=_blank> 中介?? -?? 3400元/3居?? -?? 出租知春里小區(qū)三居室?? (北京大學(xué))?? </a> <p> 11-13?? <a?? href=/bj/11/217/4969838.html?? target=_blank> 1100元/3居?? -?? 雙井橋 三居 出租 (新裝修的)合租?? (雙井)?? </a> <p> 11-13?? <a?? href=/bj/11/70/4969837.html?? target=_blank> 中介?? -?? 3500元/3居?? -?? 豐臺區(qū)兆豐園精裝修房子一套低價出租?? (玉泉路 吳家村)?? </a> <p> 11-13?? <a?? href=/bj/11/70/4969835.html?? target=_blank> 中介?? -?? 2900元/3居?? -?? 我有一套長安新城精裝修的三居室要出租?? (青塔 大成路 長安新城)?? </a> <p> 11-13?? <a?? href=/bj/11/201/4969834.html?? target=_blank> 中介?? -?? 2200元/1居?? -?? 房屋出租,北辰附近?? (亞運村)?? </a>
我現(xiàn)在要取出其中的鏈接和相應(yīng)的關(guān)鍵描述字符,即從類似 <p> 11-13?? <a?? href=/bj/11/70/4969837.html?? target=_blank> 中介?? -?? 3500元/3居?? -?? 豐臺區(qū)兆豐園精裝修房子一套低價出租?? (玉泉路 吳家村)?? </a> 中取出我們想要的信息,第一就是鏈接地址:/bj/11/70/496837.html;第二就是其描述信息:中介?? -?? 3500元/3居?? -?? 豐臺區(qū)兆豐園精裝修房子一套低價出租?? (玉泉路 吳家村)? 現(xiàn)在我們來分析下我們所取字符的共同特征,簡單總結(jié)一下分為以下幾個部分 1.他們都是以<a href=打頭,以</a>結(jié)尾. 2.在href屬性之后有可能還有其他的屬性標簽,如class,等其它相關(guān)的屬性. 方向確定我們就可以確定著手寫正則式了 首先滿足第一條件頭就為<a\s+href=;就是這樣,很簡單吧,同樣,末尾為</a>也可以直接寫 應(yīng)該說現(xiàn)在已經(jīng)可以正常匹配了,不過他匹配了一個整個的<a>標簽,不是我們所想要的,我們只是想要其中的部分 所以還需要繼續(xù)修改,因為我們要在一個標簽中去取兩個部分,一個鏈接和描述文字,其最好的方法就是把他們放在一個分組當中,待我們使用時可以直接使用,關(guān)于建立分組,前面的資料說的很清楚.為了直觀,我們采用自定義分組,即(?<分組名>)格式 一起組織起來就成了我們想要的. 即
(?<=<a\s+href=(?<link>.*?(?=\starget=)).*?>(?<content>.*?)(?=</a>)
因為時間的關(guān)系,其中分析過程略的較多,不過具體大體思路就像如上所說.只不過具體的問題具體分析.
轉(zhuǎn)載于:https://www.cnblogs.com/mol1995/p/10927279.html
總結(jié)
以上是生活随笔為你收集整理的正则 ?= 和 ?= 用法 以及零宽断言等概念的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 简单三步搭建一对一直播源码系统
- 下一篇: Linux运维之常见命令