Python正则表达式指南上半部
本文介紹了Python對于正則表達式的支持,包括正則表達式基礎以及Python正則表達式標準庫的完整介紹及使用示例。本文的內容不包括如何編寫高效的正則表達式、如何優化正則表達式,這些主題請查看其他教程。
注意:本文基于Python2.4完成;如果看到不明白的詞匯請記得百度谷歌或維基,whatever。
1. 正則表達式基礎
1.1. 簡單介紹
正則表達式并不是Python的一部分。正則表達式是用于處理字符串的強大工具,擁有自己獨特的語法以及一個獨立的處理引擎,效率上可能不如str自帶的方法,但功能十分強大。得益于這一點,在提供了正則表達式的語言里,正則表達式的語法都是一樣的,區別只在于不同的編程語言實現支持的語法數量不同;但不用擔心,不被支持的語法通常是不常用的部分。如果已經在其他語言里使用過正則表達式,只需要簡單看一看就可以上手了。
下圖展示了使用正則表達式進行匹配的流程:
正則表達式的大致匹配過程是:依次拿出表達式和文本中的字符比較,如果每一個字符都能匹配,則匹配成功;一旦有匹配不成功的字符則匹配失敗。如果表達式中有量詞或邊界,這個過程會稍微有一些不同,但也是很好理解的,看下圖中的示例以及自己多使用幾次就能明白。
下圖列出了Python支持的正則表達式元字符和語法:
1.2. 數量詞的貪婪模式與非貪婪模式
正則表達式通常用于在文本中查找匹配的字符串。Python里數量詞默認是貪婪的(在少數語言里也可能是默認非貪婪),總是嘗試匹配盡可能多的字符;非貪婪的則相反,總是嘗試匹配盡可能少的字符。例如:正則表達式”ab*”如果用于查找”abbbc”,將找到”abbb”。而如果使用非貪婪的數量詞”ab*?”,將找到”a”。
1.3. 反斜杠的困擾
與大多數編程語言相同,正則表達式里使用”\”作為轉義字符,這就可能造成反斜杠困擾。假如你需要匹配文本中的字符”\”,那么使用編程語言表示的正則表達式里將需要4個反斜杠”\\\\”:前兩個和后兩個分別用于在編程語言里轉義成反斜杠,轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠。Python里的原生字符串很好地解決了這個問題,這個例子中的正則表達式可以使用r”\\”表示。同樣,匹配一個數字的”\\d”可以寫成r”\d”。有了原生字符串,你再也不用擔心是不是漏寫了反斜杠,寫出來的表達式也更直觀。
1.4. 匹配模式
正則表達式提供了一些可用的匹配模式,比如忽略大小寫、多行匹配等,這部分內容將在Pattern類的工廠方法re.compile(pattern[, flags])中一起介紹。
2. re模塊
2.1. 開始使用re
Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先將正則表達式的字符串形式編譯為Pattern實例,然后使用Pattern實例處理文本并獲得匹配結果(一個Match實例),最后使用Match實例獲得信息,進行其他的操作。
| 123456789101112131415 | # encoding: UTF-8import?re# 將正則表達式編譯成Pattern對象pattern =?re.compile(r'hello')# 使用Pattern匹配文本,獲得匹配結果,無法匹配時將返回Nonematch =?pattern.match('hello world!')if?match:????# 使用Match獲得分組信息????print?match.group()### 輸出 #### hello |
re.compile(strPattern[, flag]):
這個方法是Pattern類的工廠方法,用于將字符串形式的正則表達式編譯為Pattern對象。 第二個參數flag是匹配模式,取值可以使用按位或運算符’|'表示同時生效,比如re.I | re.M。另外,你也可以在regex字符串中指定模式,比如re.compile(‘pattern’, re.I | re.M)與re.compile(‘(?im)pattern’)是等價的。
可選值有:
re.I(re.IGNORECASE): 忽略大小寫(括號內是完整寫法,下同)
M(MULTILINE): 多行模式,改變’^'和’$'的行為(參見上圖)
S(DOTALL): 點任意匹配模式,改變’.'的行為
L(LOCALE): 使預定字符類 \w \W \b \B \s \S 取決于當前區域設定
U(UNICODE): 使預定字符類 \w \W \b \B \s \S \d \D 取決于unicode定義的字符屬性
X(VERBOSE): 詳細模式。這個模式下正則表達式可以是多行,忽略空白字符,并可以加入注釋。以下兩個正則表達式是等價的:
| 1234 | a =?re.compile(r"""\d +? # the integral part???????????????????\.??? # the decimal point???????????????????\d *? # some fractional digits""", re.X)b =?re.compile(r"\d+\.\d*") |
轉載于:https://blog.51cto.com/1095221645/1607789
總結
以上是生活随笔為你收集整理的Python正则表达式指南上半部的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 同时对view延时执行两个动画时候的现象
- 下一篇: 基本shell编程【3】- 常用的工具a