hive正则表达式regexp_extract
1、正則規則明細
/做為轉意,即通常在"/"后面的字符不按原來意義解釋,如/b/匹配字符"b"
^?? ?匹配一個輸入或一行的開頭,/^a/匹配"an A",而不匹配"An a"
$?? ?匹配一個輸入或一行的結尾,/a$/匹配"An a",而不匹配"an A"
*?? ?匹配前面元字符0次或多次,/ba*/將匹配b,ba,baa,baaa
+?? ?匹配前面元字符1次或多次,/ba*/將匹配ba,baa,baaa
??? ?匹配前面元字符0次或1次,/ba*/將匹配b,ba
(x)?? ?匹配x保存x在名為$1...$9的變量中
x|y?? ?匹配x或y
{n}?? ?精確匹配n次
{n,}?? ?匹配n次以上
{n,m}?? ?匹配n-m次
[xyz]?? ?字符集(character set),匹配這個集合中的任一一個字符(或元字符)
[^xyz]?? ?不匹配這個集合中的任何一個字符
[/b]?? ?匹配一個退格符
/b?? ?匹配一個單詞的邊界
/B?? ?匹配一個單詞的非邊界
/cX?? ?這兒,X是一個控制符,//cM/匹配Ctrl-M
/d?? ?匹配一個字數字符,//d/ = /[0-9]/
/D?? ?匹配一個非字數字符,//D/ = /[^0-9]/
/n?? ?匹配一個換行符
/r?? ?匹配一個回車符
/s?? ?匹配一個空白字符,包括/n,/r,/f,/t,/v等
/S?? ?匹配一個非空白字符,等于/[^/n/f/r/t/v]/
/t?? ?匹配一個制表符
/v?? ?匹配一個重直制表符
/w?? ?匹配一個可以組成單詞的字符(alphanumeric,這是我的意譯,含數字),包括下劃線,如[/w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
/W?? ?匹配一個不可以組成單詞的字符,如[/W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。
'( )' 標記一個子表達式的開始和結束位置。
2、regexp_extract函數(抽取一個匹配了正則表達式的組)
regexp_extract(str, regexp[, idx])
extracts a group that matches regexp
3、實例:
如:
1) ?select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ;
得到的結果為:0代表匹配整個group正則表達式
itde
2) ?select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',1) ;
得到的結果為:1代表匹配第一個group
i
3) ?select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',2) ;
得到的結果為:2代表匹配第二個group
td
4) ?select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) from default.dual;
得到的結果為:
abc
此外,當前的語句只有2個()表達式 所以當idx>=3的時候 就會報錯
5)
原始字符串
{"serveHonourInfo": "[{\"benefits\":[{\"name\":\"接送機50元立減券\",\"count\":1,\"businessLine\":\"TRIP_PUBLIC\"}],\"stageInfos\":{\"init\":{\"status\":1}},\"extMap\":{\"delayTime\":0}}]" } SELECT *FROM t.s_tWHERE ds = MAX_PT("t.s_t")AND GET_JSON_OBJECT(attributes, "$.serveHonourInfo") IS NOT NULLAND regexp_extract(GET_JSON_OBJECT(attributes, "$.serveHonourInfo"),'(stageInfos)(.*)(init)(.*)(status\\\\":)([0-9])',6) IN (1,2)AND to_char(gmt_create, 'yyyyMMdd') >= '20211027'總結
以上是生活随笔為你收集整理的hive正则表达式regexp_extract的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云媒易:保健品行业怎么做软文推广?
- 下一篇: 数字孪生在能源、电力系统、电厂行业的应用