當前位置：首頁 > 编程语言 > python >内容正文

python

正则匹配括号里面的内容不包括括号_python正则表达式

發布時間：2023/12/10 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了正则匹配括号里面的内容不包括括号_python正则表达式小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

是一個計算機科學概念用于使用單個字符串來描述，匹配某個規則的字符串常常用來檢索，替換某些模式的文本

正則的寫法

.(點號)：表示任意一個字符，除了
[](中括號)，匹配括號中列舉的范圍，如[0-9]代表任意單個字數，[a-z]代表任意單個小寫字母
d: 任意一個數字
D：除了數字都可以
s：表空格，tab鍵
S：除了空格，tab鍵之外
w：單詞字符，a-z,A-Z,0-9,_
W：除了字母和數字
*：表示前面的內容重復零次或者多次
+：表面前面內容至少出現一次
?：表面前面的內容出現一次或者零次
{m, n} ：出現m到n次
^ ：匹配字符串的開頭
$：匹配字符串的結尾
()：對正則表達式的內容進行分組，從第一個括號開始
A：匹配字符串開始
Z：匹配字符串末尾
|：左右任意一個

使用大致步驟

使用compile將表示正則的字符串編譯為一個pattern對象

利用Pattern對象提供的方法，對文本進行匹配，獲取匹配結果

最后利用match對象提供的屬性和方法后去信息，根據需要進行操作

常用匹配方法

match匹配

必須從第一個字符開始就能匹配上，否則匹配失敗
返回的結果只有一個，并且支持group分組

import retext = '1234aash34235235fdosdf'p = re.compile('[0-9]*')result = p.match(text)print(result)print(result.group())print(result.span())"""輸出結果1234(0, 4)"""

返回結構體re.Match

span：表示匹配的跨度，從哪里匹配，到哪里結束，左包括右邊不包括
group：表示匹配的組，如果只有一組則直接打印內容
start：顯示開始匹配的字符串的位置
end：表示結束字符串的位置
groups：當正則里面出現括號時搭配使用

import retext = '1234aash34235235fdosdf'p = re.compile('([0-9]*)') # 這里多了一個括號result = p.match(text)print(result)print(result.group())print(result.groups())print(result.span())"""1234('1234',)(0, 4)"""

search匹配

與match基本一致，也只返回一個結果
但是可以不用從開頭位置匹配
返回一個結果，支持group分組

import retext = 'a1234aash34235235fdosdf'p = re.compile('[0-9]+')result = p.search(text)print(result)print(result.group())"""1234"""

findall匹配

匹配所有能匹配到的結果
不支持group分組，默認返回一個列表

import retext = 'a1234aash34235235fdosdf'p = re.compile('[0-9]+')result = p.findall(text)print(result)"""['1234', '34235235']"""

finditer匹配

匹配所有能匹配到的結果
默認返回一個迭代，由re.Match迭代而成，可以通過for循環取出
re.Match支持group分組

import retext = 'a1234aash34235235fdosdf'p = re.compile('[0-9]+')result = p.finditer(text)print(result)for r in result: print(r) print(r.group())"""123434235235"""

sub替換

可以用sub替換要匹配的字符
sub為批量替換，即可以替換多個位置

import retext = 'a1234aash34235235fdosdf'p = re.compile('[0-9]+')result = p.sub('0', text) # 把結果全部替換為0print(result)"""a0aash0fdosdf"""

group與groups的區別

group與groups都屬于re.Match的內置屬性
group用于直接顯示匹配結果，而groups用于提取匹配結果中的值
以提取百度網頁title為例

import reimport requestsurl = 'https://www.baidu.com'headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}response = requests.get(url, headers=headers)html = response.textp = re.compile('(.*?)') # 提取title中間的值result = p.search(html)print(result.group())print(result.groups())"""百度一下，你就知道('百度一下，你就知道',)"""可以看出，group直接把整個匹配的結果都提取出來了groups只提取了匹配值中括號的部分，并且需要搭配()括號使用并且group的結果是一個字符串，而groups的結果是一個tuple如果存在多個組的時候，兩個結果更不相同import retext = '2020-04-05'p = re.compile('([0-9]{4})-([0-9]{2})') # 這里分了兩個組，一組提取年份，一組提取月份result = p.search(text)print(result)print(result.group()) # 打印匹配值print(result.groups()) # 打印匹配結果，返回一個tupleprint(result.group(0)) # 打印所有組，和group()一樣print(result.group(1)) # 打印第一組的匹配值print(result.group(2)) # 打印第二組的匹配值print(result.groups(0)) # 打印所有匹配結果，和groups一樣的可以看出，group和groups里面是否加零結果都是一樣的，即返回所有組group可以指定返回第幾組的值，相對來說更好篩選groups直接返回匹配的所有值根據這里特性，我們可以重新使用group對上面的百度標題進行爬取import reimport requestsurl = 'https://www.baidu.com'headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}response = requests.get(url, headers=headers)html = response.textp = re.compile('(.*?)') # 提取title中間的值result = p.search(html)print(result.group())print(result.group(1)) # 把第1組的結果打印出來print(result.groups())"""百度一下，你就知道百度一下，你就知道('百度一下，你就知道',)"""

正則表達式修飾符

re.I演示

假設想要匹配所有字母，不區分大小寫

import retext1 = 'shdfi1234SHDFISHDI'p = re.compile('[a-z]+', re.I) # 不區分大小寫，所有字母都匹配result = p.findall(text1)print(result)"""['shdfi', 'SHDFISHDI']"""

re.M演示

假設匹配以sh開頭以2結尾的字符串

import retext1 = 'sh22dfi1234SHDFIssSHDI'p = re.compile('^sh.*2$', re.M) # 匹配多行,即忽略回車匹配所有小寫字母p2 = re.compile('^sh.*2$')result = p.findall(text1)result2 = p2.findall(text1)print(result)print(result2)"""['sh22dfi12'][]"""可以看出，在多行模式下，一個字符串根據回車符號被拆分成兩行，即有兩個開頭與結尾。

re.S演示

假設匹配一個d..I的字符串

import retext1 = 'sh22dfi1234SHDFIssSHDI'p1 = re.compile('d.*I')p2 = re.compile('d.*I', re.S) # 讓點號也能匹配換行符result1 = p1.search(text1)result2 = p2.search(text1)print(result1) # 目前沒有匹配上print(result2.group()) # 從下面的結果來看換行符也被匹配上了"""Nonedfi1234SHDFIssSHDI"""

匹配中文

匹配中文[一-龥]，不包括全角標點

貪婪匹配與非貪婪匹配

. *和.*?

import retext = '12ddd345'# 匹配一個數字開頭數字結尾的字符串p1 = re.compile('[0-9].*[0-9]') # 貪婪模式p2 = re.compile('[0-9].*?[0-9]') # 非貪婪模式result1 = p1.search(text)result2 = p2.search(text)print(result1.group())print(result2.group())"""12ddd34512"""

正則表達式默認使用貪婪匹配

import retext = u'123你好bbabd'p1 = re.compile(u'[一-龥]{1,2}') # 匹配一個或者兩個中文result1 = p1.search(text)print(result1.group()) # 打印結果是匹配兩個"""你好"""

如果使用非貪婪匹配

import retext = u'123你好bbabd'p1 = re.compile(u'[一-龥].*?') # 匹配一個或者兩個中文result1 = p1.search(text)print(result1.group()) # 打印結果是匹配一個"""你""" 創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的正则匹配括号里面的内容不包括括号_python正则表达式的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：支付宝理财怎么转出来？支付宝的理财取出步
下一篇：由于在客户端检测到一个协议错误_TLS协