當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则表达式高级用法【原】

發布時間：2024/6/21 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了正则表达式高级用法【原】小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

開發過程中的真實場景

A報文

<?xml version="1.0" encoding="utf-8"?> <PACKET><HEAD><SERVICE_NAME>seeYou</SERVICE_NAME></HEAD><BODY><CONTENT><![CDATA[<?xml version="1.0" encoding="utf-8"?><PACKET><![CDATA[nice to meet you!]]></PACKET>]]></CONTENT></BODY> </PACKET>

嵌套在A報文中的B報文

<?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[nice to meet you! ]]> </PACKET>

場景

我得到A報文,后需要解析提取B報文轉發給目標系統.

而現有解析代碼PatternTool.java如下:

package kingtool;import java.util.regex.Matcher; import java.util.regex.Pattern;public class PatternTool {/*** 從regex表達式中提供對應的值* @author King*/public static String parsePattern(String regex, String content ,int groupNum) {String ret = "";String str = "";String output ="";try {Pattern p = Pattern.compile(regex);Matcher m = p.matcher(content);if (m.find()) {for(int i = 0 ; i <= m.groupCount() ; i ++){if(i == 0){}else{str = m.group(i);output = String.format("解析得正則表達式%s中group(%d)匹配的值\n",regex,i);System.out.println(output);System.out.println(str);}}ret = m.group(groupNum);System.out.println("返回第"+groupNum+"組匹配到的內容:\n"+ret);}else{System.out.println("未解析到正則表達式"+regex+"匹配的的值\n");}} catch (Exception e) {e.printStackTrace();}return ret;}public static void main(String[] args) {String content = FileTool.readStringFromFile("D://c.txt", "GBK" );//希望匹配<CONTENT>.*<![CDATA[.*]]>.*</CONTENT>String regex = "<CONTENT>(.*)<!\\[CDATA\\[(.*)\\]\\]>(.*)</CONTENT>";String ret = parsePattern(regex,content,2);} }

解析后,打印結果如下(并非最終想要的B報文):

文件 D://c.txt存在與否?: true 讀到的文件內容如下: <?xml version="1.0" encoding="utf-8"?><PACKET> <HEAD> <SERVICE_NAME>seeYou</SERVICE_NAME> </HEAD> <BODY> <CONTENT> <![CDATA[ <?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET> ]]> </CONTENT> </BODY></PACKET> 解析得正則表達式<CONTENT>(.*)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(1)匹配的值<![CDATA[ <?xml version="1.0" encoding="utf-8"?> <PACKET> 解析得正則表達式<CONTENT>(.*)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(2)匹配的值nice to meet you! ]]> </PACKET> 解析得正則表達式<CONTENT>(.*)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(3)匹配的值返回第3組匹配到的內容:

現在來分析以上原因:

1.因為正則默認是貪婪的(全取模式,能吃多少是多少),所以第一個(.*)先取?

然后一點一點從尾部吐出來,直到匹配(<!\[CDATA\[(.*)\]\]>)就停止吐字符,至此 group(1) 匹配結束.

?2. 現在來匹配第二個(.*),老規矩先全取

然后一個一個吐字符,直到遇到]]>

3. 最后來匹配第三個(.*),老規矩先全取

直到遇到</CONTENT>停下

最終,這完全不是我們希望看到的匹配結果?nice to meet you! ]]> </PACKET>

解決方案: 加個?變成懶貓模式即可

把PatternTool.java中main主函數的正則匹配式regex中的第一個括號中加一個?,變成懶貓模式

public static void main(String[] args) {String content = FileTool.readStringFromFile("D://c.txt", "GBK" );//希望匹配<CONTENT>.*<![CDATA[.*]]>.*</CONTENT>String regex = "<CONTENT>(.*?)<!\\[CDATA\\[(.*)\\]\\]>(.*)</CONTENT>";String ret = parsePattern(regex,content,2);}

解析后,打印結果如下(是最終想要的B報文):

文件 D://c.txt存在與否?: true 讀到的文件內容如下: <?xml version="1.0" encoding="utf-8"?><PACKET> <HEAD> <SERVICE_NAME>seeYou</SERVICE_NAME> </HEAD> <BODY> <CONTENT> <![CDATA[ <?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET> ]]> </CONTENT> </BODY></PACKET> 解析得正則表達式<CONTENT>(.*?)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(1)匹配的值解析得正則表達式<CONTENT>(.*?)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(2)匹配的值<?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET> 解析得正則表達式<CONTENT>(.*?)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(3)匹配的值返回第2組匹配到的內容:<?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET>

現在來分析以上原因:

1.因為加了?后,正則變成了懶貓模式(特別地懶,能不吃就不吃),所以第一個(.*?)先取?

然后一點一點吃字符進來,直到匹配(<!\[CDATA\[(.*)\]\]>)就停止吃字符,至此 group(1) 匹配結束.

?2. 現在來匹配第二個(.*),老規矩先全取

然后一個一個吐字符,直到遇到]]>

3. 最后來匹配第三個(.*),老規矩先全取

直到遇到</CONTENT>停下

最終,這就是我們希望看到的匹配結果 :

<?xml version="1.0" encoding="utf-8"?><PACKET><![CDATA[nice to meet you!]]></PACKET>

總結:

正則默認貪婪模式 : 能取多少是多少

加了?后變成懶貓模式 : 能不取就盡量不取

本文原創,請轉明出處,by 金墨癡.

轉載于:https://www.cnblogs.com/whatlonelytear/p/5764298.html

總結

以上是生活随笔為你收集整理的正则表达式高级用法【原】的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Linux下I/O多路转接之select
下一篇：安装laravel5.1项目命令