正则表达式高级用法【原】
開發過程中的真實場景
A報文
<?xml version="1.0" encoding="utf-8"?> <PACKET><HEAD><SERVICE_NAME>seeYou</SERVICE_NAME></HEAD><BODY><CONTENT><![CDATA[<?xml version="1.0" encoding="utf-8"?><PACKET><![CDATA[nice to meet you!]]></PACKET>]]></CONTENT></BODY> </PACKET>?
嵌套在A報文中的B報文
<?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[nice to meet you! ]]> </PACKET>?
場景
我得到A報文,后需要解析提取B報文轉發給目標系統.
而現有解析代碼PatternTool.java如下:
package kingtool;import java.util.regex.Matcher; import java.util.regex.Pattern;public class PatternTool {/*** 從regex表達式中提供對應的值* @author King*/public static String parsePattern(String regex, String content ,int groupNum) {String ret = "";String str = "";String output ="";try {Pattern p = Pattern.compile(regex);Matcher m = p.matcher(content);if (m.find()) {for(int i = 0 ; i <= m.groupCount() ; i ++){if(i == 0){}else{str = m.group(i);output = String.format("解析得正則表達式%s中group(%d)匹配的值\n",regex,i);System.out.println(output);System.out.println(str);}}ret = m.group(groupNum);System.out.println("返回第"+groupNum+"組匹配到的內容:\n"+ret);}else{System.out.println("未解析到正則表達式"+regex+"匹配的的值\n");}} catch (Exception e) {e.printStackTrace();}return ret;}public static void main(String[] args) {String content = FileTool.readStringFromFile("D://c.txt", "GBK" );//希望匹配<CONTENT>.*<![CDATA[.*]]>.*</CONTENT>String regex = "<CONTENT>(.*)<!\\[CDATA\\[(.*)\\]\\]>(.*)</CONTENT>";String ret = parsePattern(regex,content,2);} }?
解析后,打印結果如下(并非最終想要的B報文):
文件 D://c.txt存在與否?: true 讀到的文件內容如下: <?xml version="1.0" encoding="utf-8"?><PACKET> <HEAD> <SERVICE_NAME>seeYou</SERVICE_NAME> </HEAD> <BODY> <CONTENT> <![CDATA[ <?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET> ]]> </CONTENT> </BODY></PACKET> 解析得正則表達式<CONTENT>(.*)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(1)匹配的值<![CDATA[ <?xml version="1.0" encoding="utf-8"?> <PACKET> 解析得正則表達式<CONTENT>(.*)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(2)匹配的值nice to meet you! ]]> </PACKET> 解析得正則表達式<CONTENT>(.*)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(3)匹配的值返回第3組匹配到的內容:?
現在來分析以上原因:
1.因為正則默認是貪婪的(全取模式,能吃多少是多少),所以第一個(.*)先取?
然后一點一點從尾部吐出來,直到匹配(<!\[CDATA\[(.*)\]\]>)就停止吐字符,至此 group(1) 匹配結束.
?2. 現在來匹配第二個(.*),老規矩先全取
?
然后一個一個吐字符,直到遇到]]>
?
3. 最后來匹配第三個(.*),老規矩先全取
?
直到遇到</CONTENT>停下
?
最終,這完全不是我們希望看到的匹配結果?nice to meet you! ]]> </PACKET>
?
解決方案: 加個?變成懶貓模式即可
把PatternTool.java中main主函數的正則匹配式regex中的第一個括號中加一個?,變成懶貓模式
public static void main(String[] args) {String content = FileTool.readStringFromFile("D://c.txt", "GBK" );//希望匹配<CONTENT>.*<![CDATA[.*]]>.*</CONTENT>String regex = "<CONTENT>(.*?)<!\\[CDATA\\[(.*)\\]\\]>(.*)</CONTENT>";String ret = parsePattern(regex,content,2);}解析后,打印結果如下(是最終想要的B報文):
文件 D://c.txt存在與否?: true 讀到的文件內容如下: <?xml version="1.0" encoding="utf-8"?><PACKET> <HEAD> <SERVICE_NAME>seeYou</SERVICE_NAME> </HEAD> <BODY> <CONTENT> <![CDATA[ <?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET> ]]> </CONTENT> </BODY></PACKET> 解析得正則表達式<CONTENT>(.*?)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(1)匹配的值解析得正則表達式<CONTENT>(.*?)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(2)匹配的值<?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET> 解析得正則表達式<CONTENT>(.*?)<!\[CDATA\[(.*)\]\]>(.*)</CONTENT>中group(3)匹配的值返回第2組匹配到的內容:<?xml version="1.0" encoding="utf-8"?> <PACKET> <![CDATA[ nice to meet you! ]]> </PACKET>?
現在來分析以上原因:
1.因為加了?后,正則變成了懶貓模式(特別地懶,能不吃就不吃),所以第一個(.*?)先取?
然后一點一點吃字符進來,直到匹配(<!\[CDATA\[(.*)\]\]>)就停止吃字符,至此 group(1) 匹配結束.
?2. 現在來匹配第二個(.*),老規矩先全取
?
然后一個一個吐字符,直到遇到]]>
?
3. 最后來匹配第三個(.*),老規矩先全取
?
直到遇到</CONTENT>停下
?
最終,這就是我們希望看到的匹配結果 :
| <?xml version="1.0" encoding="utf-8"?><PACKET><![CDATA[nice to meet you!]]></PACKET> |
?
?
?
?
?
總結:
正則默認貪婪模式 : 能取多少是多少
加了?后變成懶貓模式 : 能不取就盡量不取
?
?
本文原創,請轉明出處,by 金墨癡.
轉載于:https://www.cnblogs.com/whatlonelytear/p/5764298.html
總結
以上是生活随笔為你收集整理的正则表达式高级用法【原】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux下I/O多路转接之select
- 下一篇: 安装laravel5.1项目命令