當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

常用正则表达式大全！

發布時間：2025/3/20 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了常用正则表达式大全！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于需求原因，需要匹配提取中文，大量google下，并沒有我需要的?；艘粋€小時大概測試，此utf8中文通過，特留文。
?? 參考： http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html
????????? http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html

??? 首先，確保所有編碼都為 unicode
? ? ? ?? 比如 str.decode('utf8') #從utf8文本中
????????????? u"啊l"? #在控制臺輸出中 ???
???????? (羅嗦下)本想使用參考一定編碼 Hex 但郁悶的是這每個字好像占2個位置，使用正則匹配無果。
??? 其次，確定中文范圍 :?[\u4e00-\u9fa5]
????????? (這里注意下 python 的re寫的時候) 要??u"[\u4e00-\u9fa5]" #確定正則表達式也是 unicode 的
??? demo :
????

>>>?print?re.match(ur"[\u4e00-\u9fa5]+","啊")
None
>>>?print?re.match(ur"[\u4e00-\u9fa5]+",u"啊")
<_sre.SRE_Match?object?at?0x2a98981308>

>>>?print?re.match(ur"[\u4e00-\u9fa5]+",u"t")
None

>>>?print?tt
現在才明白
>>>?tt
'\xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd'
>>>?print?re.match(r"[\u4e00-\u9fa5]",tt.decode('utf8'))
None
>>>?print?re.match(ur"[\u4e00-\u9fa5]",tt.decode('utf8'))
<_sre.SRE_Match?object?at?0x2a955d9c60>

>>>?print?re.match(ur".*["u4e00-"u9fa5]+",u"hi,匹配到了")
<_sre.SRE_Match?object?at?0x2a955d9c60>
>>>?print?re.match(ur".*["u4e00-"u9fa5]+",u"hi,no?no")
None

???????

其他擴充范圍 (轉)

這里是幾個主要非英文語系字符范圍(google上找到的):
2E80～33FFh：中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符，中日韓的符號、標點、帶圈或帶括符文數字、月份，以及日本的假名組合、單位、年號、月份、日期、時間等。
3400～4DFFh：中日韓認同表意文字擴充A區，總計收容6,582個中日韓漢字。
4E00～9FFFh：中日韓認同表意文字區，總計收容20,902個中日韓漢字。
A000～A4FFh：彝族文字區，收容中國南方彝族文字和字根。
AC00～D7FFh：韓文拼音組合字區，收容以韓文音符拼成的文字。
F900～FAFFh：中日韓兼容表意文字區，總計收容302個中日韓漢字。
FB00～FFFDh：文字表現形式區，收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角符號等。
比如需要匹配所有中日韓非符號字符,那么正則表達式應該是^[\u3400-\u9FFF]+$
理論上沒錯,?可是我到msn.co.ko隨便復制了個韓文下來,?發現根本不對,?詭異
再到msn.co.jp復制了個’お’,?也不得行..
然后把范圍擴大到^[\u2E80-\u9FFF]+$,?這樣倒是都通過了,?這個應該就是匹配中日韓文字的正則表達式了,?包括我們臺灣省還在盲目使用的繁體中文
而關于中文的正則表達式,?應該是^[\u4E00-\u9FFF]+$,?和論壇里常被人提起的^[\u4E00-\u9FA5]+$很接近
需要注意的是論壇里說的^[\u4E00-\u9FA5]+$這是專門用于匹配簡體中文的正則表達式,?實際上繁體字也在里面,?我用測試器測試了下’中華人民共和國’,?也通過了,?當然,?^[\u4E00-\u9FFF]+$也是一樣的結果。

匹配中文字符的正則表達式： [u4e00-u9fa5]???
　　評注：匹配中文還真是個頭疼的事，有了這個表達式就好辦了?
　　匹配雙字節字符(包括漢字在內)：[^x00-xff]?
　　評注：可以用來計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）?
　　匹配空白行的正則表達式：ns*r?
　　評注：可以用來刪除空白行?
　　匹配HTML標記的正則表達式：<(S*?)[^>]*>.*?|<.*? />?
　　評注：網上流傳的版本太糟糕，上面這個也僅僅能匹配部分，對于復雜的嵌套標記依舊無能為力?
　　匹配首尾空白字符的正則表達式：^s*|s*$?
　　評注：可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達式?
　　匹配Email地址的正則表達式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*?
　　評注：表單驗證時很實用?
　　匹配網址URL的正則表達式：[a-zA-z]+://[^s]*?
　　評注：網上流傳的版本功能很有限，上面這個基本可以滿足需求?
　　匹配帳號是否合法(字母開頭，允許5-16字節，允許字母數字下劃線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$?
　　評注：表單驗證時很實用?
　　匹配國內電話號碼：d{3}-d{8}|d{4}-d{7}?
　　評注：匹配形式如 0511-4405222 或 021-87888822?
　　匹配騰訊QQ號：[1-9][0-9]{4,}?
　　評注：騰訊QQ號從10000開始?
　　匹配中國郵政編碼：[1-9]d{5}(?!d)?
　　評注：中國郵政編碼為6位數字?
　　匹配身份證：d{15}|d{18}?
　　評注：中國的身份證為15位或18位?
　　匹配ip地址：d+.d+.d+.d+?
　　評注：提取ip地址時有用?
　　匹配特定數字：?
　　^[1-9]d*$　　 //匹配正整數?
　　^-[1-9]d*$ 　 //匹配負整數?
　　^-?[1-9]d*$　　 //匹配整數?
　　^[1-9]d*|0$　 //匹配非負整數（正整數 + 0）?
　　^-[1-9]d*|0$　　 //匹配非正整數（負整數 + 0）?
　　^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮點數?
　　^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配負浮點數?
　　^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮點數?
　　^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非負浮點數（正浮點數 + 0）?
　　^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮點數（負浮點數 + 0）?
　　評注：處理大量數據時有用，具體應用時注意修正?
　　匹配特定字符串：?
　　^[A-Za-z]+$　　//匹配由26個英文字母組成的字符串?
　　^[A-Z]+$　　//匹配由26個英文字母的大寫組成的字符串?
　　^[a-z]+$　　//匹配由26個英文字母的小寫組成的字符串?
　　^[A-Za-z0-9]+$　　//匹配由數字和26個英文字母組成的字符串?
　　^w+$　　//匹配由數字、26個英文字母或者下劃線組成的字符串?
　　在使用RegularExpressionValidator驗證控件時的驗證功能及其驗證表達式介紹如下:?
　　只能輸入數字：“^[0-9]*$”?
　　只能輸入n位的數字：“^d{n}$”?
　　只能輸入至少n位數字：“^d{n,}$”?
　　只能輸入m-n位的數字：“^d{m,n}$”?
　　只能輸入零和非零開頭的數字：“^(0|[1-9][0-9]*)$”?
　　只能輸入有兩位小數的正實數：“^[0-9]+(.[0-9]{2})?$”?
　　只能輸入有1-3位小數的正實數：“^[0-9]+(.[0-9]{1,3})?$”?
　　只能輸入非零的正整數：“^+?[1-9][0-9]*$”?
　　只能輸入非零的負整數：“^-[1-9][0-9]*$”?
　　只能輸入長度為3的字符：“^.{3}$”?
　　只能輸入由26個英文字母組成的字符串：“^[A-Za-z]+$”?
　　只能輸入由26個大寫英文字母組成的字符串：“^[A-Z]+$”?
　　只能輸入由26個小寫英文字母組成的字符串：“^[a-z]+$”?
　　只能輸入由數字和26個英文字母組成的字符串：“^[A-Za-z0-9]+$”?
　　只能輸入由數字、26個英文字母或者下劃線組成的字符串：“^w+$”?
　　驗證用戶密碼:“^[a-zA-Z]w{5,17}$”正確格式為：以字母開頭，長度在6-18之間，?
　　只能包含字符、數字和下劃線。?
　　驗證是否含有^%&'',;=?$"等字符：“[^%&'',;=?$x22]+”?
　　只能輸入漢字：“^[u4e00-u9fa5],{0,}$”?
　　驗證Email地址：“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”?
　　驗證InternetURL：“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”?
　　驗證電話號碼：“^((d{3,4})|d{3,4}-)?d{7,8}$”?
　　正確格式為：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”，?
　　“XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。?
　　驗證身份證號（15位或18位數字）：“^d{15}|d{}18$”?
　　驗證一年的12個月：“^(0?[1-9]|1[0-2])$”正確格式為：“01”-“09”和“1”“12”?
　　驗證一個月的31天：“^((0?[1-9])|((1|2)[0-9])|30|31)$”?
　　正確格式為：“01”“09”和“1”“31”。?
　　匹配中文字符的正則表達式： [u4e00-u9fa5]?
　　匹配雙字節字符(包括漢字在內)：[^x00-xff]?
　　匹配空行的正則表達式：n[s| ]*r?
　　匹配HTML標記的正則表達式：/<(.*)>.*|<(.*) />/?
　　匹配首尾空格的正則表達式：(^s*)|(s*$)?
　　匹配Email地址的正則表達式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*?
　　匹配網址URL的正則表達式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)??
　　(1)應用：計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）?
　　String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}?
　　(2)應用：javascript中沒有像vbscript那樣的trim函數，我們就可以利用這個表達式來實現?
　　String.prototype.trim = function()?
　　{?
　　return this.replace(/(^s*)|(s*$)/g, "");?
　　}?
　　(3)應用：利用正則表達式分解和轉換IP地址?
　　function IP2V(ip) //IP地址轉換成對應數值?
　　{?
　　re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正則表達式?
　　if(re.test(ip))?
　　{?
　　return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1?
　　}?
　　else?
　　{?
　　throw new Error("Not a valid IP address!")?
　　}?
　　}?
　　(4)應用：從URL地址中提取文件名的javascript程序?
　　s="http://www.9499.net/page1.htm";?
　　s=s.replace(/(.*/){0,}([^.]+).*/ig,"$2") ;//Page1.htm?
　　(5)應用：利用正則表達式限制網頁表單里的文本框輸入內容?
　　用正則表達式限制只能輸入中文：οnkeyup="value=value.replace(/[^u4E00-u9FA5]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^u4E00-u9FA5]/g,''))"?
　　用正則表達式限制只能輸入全角字符： οnkeyup="value=value.replace(/[^uFF00-uFFFF]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^uFF00-uFFFF]/g,''))"?
　　用正則表達式限制只能輸入數字：οnkeyup="value=value.replace(/[^d]/g,'') "onbeforepaste= "clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^d]/g,''))"?
　　用正則表達式限制只能輸入數字和英文：οnkeyup="value=value.replace(/[W]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^d]/g,''

轉自：http://www.pythonfan.org/blog-433-1202.html

轉載于:https://www.cnblogs.com/wanzhongjun/p/6648734.html

總結

以上是生活随笔為你收集整理的常用正则表达式大全！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：变量的传值与传引用
下一篇： HDU 1811 Rank of Tet