當前位置：首頁 > 编程语言 > python >内容正文

python

Python正则表达式之元字符详解（1）

發布時間：2025/3/21 python 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python正则表达式之元字符详解（1）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

簡介
- 注意：
字符匹配
- 元字符
- - [ ]
  - - 注意：
  - 反斜杠\
  - .
  - *
  - +
  - ?
  - {}

簡介

正則表達式（Regular expressions 也稱為 REs，或 regexes 或 regex patterns）本質上是一個微小的且高度專業化的編程語言。它被嵌入到 Python 中，并通過 re 模塊提供給程序猿使用。使用正則表達式，你需要指定一些規則來描述那些你希望匹配的字符串集合。這些字符串集合可能包含英語句子、 e-mail 地址、TeX 命令

注意：

Python 的正則表達式引擎是用 C 語言寫的，所以效率是極高的。另，所謂的正則表達式，這里說的 RE，就是上文我們提到的“一些規則”。

字符匹配

大多數字母和字符會匹配它們自身。舉個例子，正則表達式Dog 將完全匹配字符串 “Dog”,默認情況下區分大小寫。當然這個規則也有例外。有少數特殊的字符我們稱之為元字符（metacharacter），它們并不能匹配自身，它們定義了字符類、子組匹配和模式重復次數等。

元字符

下邊是元字符的完整列表：

. ^ $ * + ? { } [ ] \ | ( )

如果沒有這些元字符，正則表達式就變得跟字符串的 find() 方法一樣平庸了…

[ ]

下方括號 [ ]，它們指定一個字符類用于存放你需要匹配的字符集合。可以單獨列出需要匹配的字符，也可以通過兩個字符和一個橫桿 - 指定匹配的范圍。例如 [abc] 會匹配字符 a，b 或 c；[a-c] 可以實現相同的功能。后者使用范圍來表示與前者相同的字符集合。舉例：如果你想只匹配小寫字母，你的 RE 可以寫成 [a-z]

注意：

元字符在方括號中不會觸發“特殊功能”，在字符類中，它們只匹配自身。例如 [akm$] 會匹配任何字符 'a'，'k'，'m' 或 '$'，'$' 是一個元字符，但在方括號中它不表示特殊含義，它只匹配 ‘$’ 字符本身。

你還可以匹配方括號中未列出的所有其他字符。做法是在類的開頭添加一個脫字符號 ^ ，例如 [^5] 會匹配除了 ‘5’ 之外的任何字符

反斜杠\

跟 Python 的字符串規則一樣，如果在反斜杠后邊緊跟著一個元字符，那么元字符的“特殊功能”也不會被觸發。例如你需要匹配符號 [ 或 \，你可以在它們前面加上一個反斜杠，以消除它們的特殊功能：\[，\\

反斜杠后邊跟一些字符還可以表示特殊的意義，例如表示十進制數字，表示所有的字母或者表示非空白的字符集合。

反斜杠后邊跟元字符去除特殊功能，反斜杠后邊跟普通字符實現特殊功能。

舉個例子：\w 匹配任何單詞字符。如果正則表達式以字節的形式表示，這相當于字符類 [a-zA-Z0-9_]；如果正則表達式是一個字符串，\w 會匹配所有 Unicode 數據庫（unicodedata 模塊提供）中標記為字母的字符。你可以在編譯正則表達式的時候，通過提供 re.ASCII 表示進一步限制 \w 的定義。

re.ASCII 標志使得 \w 只能匹配 ASCII 字符，不要忘了，Python3 是 Unicode 的。

特殊字符含義

\d	匹配任何十進制數字；相當于類 [0-9]
\D	與 \d 相反，匹配任何非十進制數字的字符；相當于類 [^0-9]
\s	匹配任何空白字符（包含空格、換行符、制表符等）；相當于類 [ \t\n\r\f\v]
\S	與 \s 相反，匹配任何非空白字符；相當于類 [^ \t\n\r\f\v]
\w	匹配任何單詞字符，見上方解釋
\W	于 \w 相反
\b	匹配單詞的開始或結束
\B	與 \b 相反

它們可以包含在一個字符類中，并且一樣擁有特殊含義。例如 [\s,.] 是一個字符類，它將匹配任何空白字符（/s 的特殊含義），',' 或 '.'。

.

另外一個元字符是 .，它匹配除了換行符以外的任何字符。如果設置了 re.DOTALL 標志，. 將匹配包括換行符在內的任何字符。

*

我們來看看 * 這個元字符，當然它不是匹配 '*' 字符本身，它用于指定前一個字符匹配零次或者多次

例如 ca*t 將匹配 ct（0 個字符 a），cat（1 個字符 a），caaat（3 個字符 a），等等。需要注意的是，由于受到 C 語言的 int 類型大小的內部限制，正則表達式引擎會限制字符 'a' 的重復個數不超過 20 億個。

正則表達式默認的重復規則是貪婪的，當你重復匹配一個 RE 時，匹配引擎會嘗試盡可能多的去匹配。直到 RE 不匹配或者到了結尾，匹配引擎就會回退一個字符，然后再繼續嘗試匹配

通過例子一步步的給大家講解什么叫“貪婪”：先考慮一下表達式 a[bcd]*b，首先需要匹配字符 'a'，然后是零個到多個 [bcd]，最后以 ‘b’ 結尾。那現在想象一下，這個 RE 匹配字符串 abcbd 會怎樣？

步驟匹配說明

1	a	匹配 RE 的第一個字符 ‘a’
2	abcbd	引擎在符合規則的情況下盡可能地匹配 [bcd]*，直到該字符串的結尾
3	失敗	引擎嘗試匹配 RE 最后一個字符 ‘b’，但當前位置已經是字符串的結尾，所以失敗告終
4	abcb	回退，所以 [bcd]* 匹配少一個字符
5	失敗	再一次嘗試匹配 RE 最后一個字符 ‘b’，但字符串最后一個字符是 ‘d’，所以失敗告終
6	abc	再次回退，所以 [bcd]* 這次只匹配 'bc'
7	abcb	再一次嘗試匹配字符 ‘b’，這一次字符串當前位置指向的字符正好是 ‘b’，匹配成功

RE 匹配的結果是 abcb。

正則表達式默認的匹配規則是貪婪的，后邊有說如何使用非貪婪的方法匹配。

+

要特別注意 * 和 + 的區別：* 匹配的是零次或者多次，所以被重復的內容可能壓根兒不會出現；+ 至少需要出現一次。例如 ca+t 會匹配 cat 和 caaat，但不會匹配 ct。

?

還有兩個表示重復的元字符，其中一個是問號 ?，用于指定前一個字符匹配零次或者一次。你可以這么想，它的作用就是把某種東西標志位可選的。例如小?魚可以匹配小魚，也可以匹配魚。

{}

最靈活的應該是元字符 {m,n}（m 和 n 都是十進制整數），上邊講到的幾個元字符都可以使用它來表達，它的含義是前一個字符必須匹配 m 次到 n 次之間。例如 a/{1,3}b 會匹配 a/b，a//b 和 a///b。但不會匹配 ab（沒有斜杠）；也不會匹配 ab（斜杠超過三個）。

你可以省略 m 或者 n，這樣的話，引擎會假定一個合理的值代替。省略 m，將被解釋為下限 0；省略 n 則會被解釋為無窮大（事實上是上邊我們提到的 20 億）。

如果是 {,n} 相當于 {0,n}；如果是 {m,} 相當于 {m,+無窮}；如果是 {n}，則是重復前一個字符 n 次。另外還有一個超容易出錯的是寫成 {m, n}，看著挺美，但注意，正則表達式里邊不能隨意添加空格，不然會改變原來的含義。

其實 *、+ 和 ? 都可以使用 {m,n} 來代替。{0,} 跟 * 是一樣的；{1,} 跟 + 是一樣的；{0,1} 跟 ? 是一樣的。不過還是鼓勵大家記住并使用 *、+ 和 ?，因為這些字符更短并且更容易閱讀。

還有一個原因是匹配引擎對 * + ? 做了優化，效率要更高些。

總結

以上是生活随笔為你收集整理的Python正则表达式之元字符详解（1）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：正则表达式实际操作
下一篇： Python3 正则表达式特殊符号及用法