Java正则表达式总结
引言
正則表達式(英文:regular expression)是用于描述字符串規(guī)則的工具,是記錄文本規(guī)則的代碼。
它可以用來搜索、編輯、處理文本。現(xiàn)有編程語言都支持正則表達式的處理,但每種語言都有細微的差別。
在Java 中,正則表達式的轉(zhuǎn)義反斜杠要用:\\ 來表示,這是因為在《Java Language Specification》中明確規(guī)定,Java 中的一個反斜杠會用于轉(zhuǎn)義Unicode編碼。如果要匹配字符串中的反斜杠,那么需要四個反斜杠:\\\\ 。
在線正則表達式傳送門:在線正則傳送門
一、Java語言對正則的支持
最常用的正則表達式的類有Pattern和 Matcher,他們都是java.util.regex 包下的工具類。
Pattern 描述了一個正則表達式經(jīng)過編譯之后的對象,換句話說它就代表一個正則表達式對象。因為正則表達式本身也是由字符串來定義,但僅僅是字符串的正則表達式不可能直接去進行匹配工作,必須交由編程語言進行解析和實例化,變成某種數(shù)據(jù)結(jié)構(gòu)才能夠真正發(fā)揮作用。這一點和 html 必須先轉(zhuǎn)化為一個 dom 樹結(jié)構(gòu)才能夠進一步被處理有些類似。
Pattern 除了可以描述一個正則表達式之外,同時具備匹配的功能,可以使用靜態(tài)的方法:
boolean isDecimal = Pattern.matches("^\\d+\\.\\d+", "20"); System.out.println(isDecimal); // 輸出:falseboolean isDecimal = Pattern.matches("^\\d+\\.\\d+", "20.224"); System.out.println(isDecimal); // 輸出:trueMatcher 是正則表達式匹配處理引擎。可以通過解釋一個Pattern 對象對一個字符序列進行匹配操作,比如,編輯替換等等。
Matcher 對象的創(chuàng)建是通過調(diào)用 Pattern 對象的 matcher 方法:
Matcher m = reg.matcher("待處理的文本");Matcher 對象一旦被創(chuàng)建,就可以處理三種不同的匹配操作:
1、匹配校驗:matches
它同樣可以對整個輸入字符串進行匹配校驗(這與 Pattern.matches() 靜態(tài)方法的功能完全相同):
Pattern reg = Pattern.compile("^\\d+\\.\\d+"); Matcher m = reg.matcher("2019.12.22"); boolean matches = m.matches(); System.out.println(matches); // 輸出:false2、頭部查找:lookingAt
查找匹配返回一個布爾,當且僅當輸入序列,在序列開始的位置滿足正則才返回 true,但不要求整個字符序列都要滿足?。
Pattern reg = Pattern.compile("^\\d+\\.\\d+"); Matcher m1 = reg.matcher("2019.12-1212"); boolean prefixMatched1 = m1.lookingAt(); System.out.println(prefixMatched1); // true Matcher m2 = reg.matcher("2019-1212.12"); boolean prefixMatched2 = m2.lookingAt(); System.out.println(prefixMatched2); // false3、向下查找:find
這個方法同樣返回布爾,該方法嘗試查找下一個與正則相匹配的子串,這在處理較長輸入序列的時候比較有用,它會從輸入序列的第一個字符開始匹配,或者如果在之前的程序中有調(diào)用過該方法,且匹配器沒有被重置過,那么它就會從沒有被之前的匹配操作匹配過的字符開始繼續(xù)匹配。
Pattern reg = Pattern.compile("\\d+\\.\\d+"); Matcher m1 = reg.matcher("201912-12.12"); boolean lookingAt = m1.lookingAt(); boolean find = m1.find(); boolean find2 = m1.find(); System.out.println(lookingAt); // false System.out.println(find); // true System.out.println(find2); // false二、正則表達式語法
注意,對于轉(zhuǎn)義符,Java 中用 \\ 來表示正則表達式中的 \,因此拋開語言不談,只針對正則表達式語法的話,只以 \ 來描述正則表達式語法。
正則表達式的規(guī)則非常多,僅靠人腦很難一次性全部記住,這里總結(jié)一些在工作中(非專業(yè)文本處理相關(guān)工作)常用的正則表達式的語法以及在線正則表達式的簡單使用。
常用元字符
| . | 匹配除換行符以外的任意字符 |
| \w | 匹配字母或數(shù)字或下劃線 |
| \s | 匹配任意的空白符 |
| \d | 匹配數(shù)字 |
| \b | 匹配單詞的開始或結(jié)束 |
| ^ | 匹配字符串的開始 |
| $ | 匹配字符串的結(jié)束 |
常用限定符
| * | 重復(fù)零次或更多次 |
| + | 重復(fù)一次或更多次 |
| ? | 重復(fù)零次或一次 |
| {n} | 重復(fù)n次 |
| {n,} | 重復(fù)n次或更多次 |
| {n,m} | 重復(fù)n到m次 |
常用反義詞
| \W | 匹配任意不是字母,數(shù)字,下劃線,漢字的字符 |
| \S | 匹配任意不是空白符的字符 |
| \D | 匹配任意非數(shù)字的字符 |
| \B | 匹配不是單詞開頭或結(jié)束的位置 |
| [^x] | 匹配除了x以外的任意字符 |
| [^aeiou] | 匹配除了aeiou這幾個字母以外的任意字符 |
這些正則描述符都是出現(xiàn)頻率極高的存在,一般的文本匹配都離不開這些描述符,需要牢記。
附1:常用正則表達式(摘抄自菜鳥教程)
原地址:https://c.runoob.com/front-end/854
1、校驗數(shù)字的表達式
- 數(shù)字:^[0-9]*$
- n位的數(shù)字:^\d{n}$
- 至少n位的數(shù)字:^\d{n,}$
- m-n位的數(shù)字:^\d{m,n}$
- 零和非零開頭的數(shù)字:^(0|[1-9][0-9]*)$
- 非零開頭的最多帶兩位小數(shù)的數(shù)字:^([1-9][0-9]*)+(\.[0-9]{1,2})?$
- 帶1-2位小數(shù)的正數(shù)或負數(shù):^(\-)?\d+(\.\d{1,2})$
- 正數(shù)、負數(shù)、和小數(shù):^(\-|\+)?\d+(\.\d+)?$
- 有兩位小數(shù)的正實數(shù):^[0-9]+(\.[0-9]{2})?$
- 有1~3位小數(shù)的正實數(shù):^[0-9]+(\.[0-9]{1,3})?$
- 非零的正整數(shù):^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
- 非零的負整數(shù):^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
- 非負整數(shù):^\d+$ 或 ^[1-9]\d*|0$
- 非正整數(shù):^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
- 非負浮點數(shù):^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
- 非正浮點數(shù):^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
- 正浮點數(shù):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
- 負浮點數(shù):^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
- 浮點數(shù):^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
2、校驗字符的表達式
- 漢字:^[\u4e00-\u9fa5]{0,}$
- 英文和數(shù)字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
- 長度為3-20的所有字符:^.{3,20}$
- 由26個英文字母組成的字符串:^[A-Za-z]+$
- 由26個大寫英文字母組成的字符串:^[A-Z]+$
- 由26個小寫英文字母組成的字符串:^[a-z]+$
- 由數(shù)字和26個英文字母組成的字符串:^[A-Za-z0-9]+$
- 由數(shù)字、26個英文字母或者下劃線組成的字符串:^\w+$ 或 ^\w{3,20}$
- 中文、英文、數(shù)字包括下劃線:^[\u4E00-\u9FA5A-Za-z0-9_]+$
- 中文、英文、數(shù)字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
- 可以輸入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+
- 禁止輸入含有~的字符:[^~\x22]+
3、特殊需求表達式
- Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
- 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
- InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
- 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|4|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
- 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
- 國內(nèi)電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
- 電話號碼正則表達式(支持手機號碼,3-4位區(qū)號,7-8位直播號碼,1-4位分機號):?((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)
- 身份證號(15位、18位數(shù)字),最后一位是校驗位,可能為數(shù)字或字符X:(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)
- 帳號是否合法(字母開頭,允許5-16字節(jié),允許字母數(shù)字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
- 密碼(以字母開頭,長度在6~18之間,只能包含字母、數(shù)字和下劃線):^[a-zA-Z]\w{5,17}$
- 強密碼(必須包含大小寫字母和數(shù)字的組合,不能使用特殊字符,長度在 8-10 之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z])[a-zA-Z0-9]{8,10}$
- 強密碼(必須包含大小寫字母和數(shù)字的組合,可以使用特殊字符,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
- 日期格式:^\d{4}-\d{1,2}-\d{1,2}
- 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$
- 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
- 錢的輸入格式:
- 有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
- 這表示任意一個不以0開頭的數(shù)字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式:^(0|[1-9][0-9]*)$
- 一個0或者一個不以0開頭的數(shù)字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$
- 這表示一個0或者一個可能為負的開頭不為0的數(shù)字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧。下面我們要加的是說明可能的小數(shù)部分:^[0-9]+(.[0-9]+)?$
- 必須說明的是,小數(shù)點后面至少應(yīng)該有1位數(shù),所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$
- 這樣我們規(guī)定小數(shù)點后面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$
- 這樣就允許用戶只寫一位小數(shù).下面我們該考慮數(shù)字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
- 1到3個數(shù)字,后面跟著任意個 逗號+3個數(shù)字,逗號成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
- 備注:這就是最終結(jié)果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數(shù)時去掉去掉那個反斜杠,一般的錯誤都在這里
- xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
- 中文字符的正則表達式:[\u4e00-\u9fa5]
- 雙字節(jié)字符:[^\x00-\xff] (包括漢字在內(nèi),可以用來計算字符串的長度(一個雙字節(jié)字符長度計2,ASCII字符計1))
- 空白行的正則表達式:\n\s*\r (可以用來刪除空白行)
- HTML標記的正則表達式:<(\S*?)[^>]*>.*?|<.*? /> ( 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式)
- 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)
- 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數(shù)字)
- IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
附2:在線正則表達式工具使用簡介
一般的在線正則表達式都會有常用的匹配模式選擇,一般選擇模式之后,只要輸入待匹配文本即可:
?
總結(jié)
以上是生活随笔為你收集整理的Java正则表达式总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Eclipse使用————生成Get/S
- 下一篇: 价值50万年薪的Java面试题