云漫圈 | 什么是字符串匹配算法?
作者 | 程序員小灰
來源 | 程序員小灰(ID:chengxuyuanxiaohui?)
—————? 第二天? —————
什么意思呢?讓我們來舉一個例子:
在上圖中,字符串B是A的子串,
B第一次在A中出現的位置下標是2(字符串的首位下標是0),
所以返回 2。
我們再看另一個例子:
在上圖中,字符串B在A中并不存在,
所以返回 -1。
為了統一概念,
在后文中,
我們把字符串A稱為主串,
把字符串B稱為模式串。
小灰的想法簡單粗暴,
讓我們用下面的例子來演示一下:
第一輪,我們從主串的首位開始,
把主串和模式串的字符逐個比較:
顯然,主串的首位字符是a,
模式串的首位字符是b,兩者并不匹配。
第二輪,我們把模式串后移一位,
從主串的第二位開始,
把主串和模式串的字符逐個比較:
主串的第二位字符是b,
模式串的第二位字符也是b,
兩者匹配,繼續比較:
主串的第三位字符是b,
模式串的第三位字符也是c,
兩者并不匹配。
第三輪,我們把模式串再次后移一位,
從主串的第三位開始,
把主串和模式串的字符逐個比較:
主串的第三位字符是b,
模式串的第三位字符也是b,
兩者匹配,繼續比較:
主串的第四位字符是c,
模式串的第四位字符也是c,
兩者匹配,繼續比較:
主串的第五位字符是e,
模式串的第五位字符也是e,
兩者匹配,比較完成!
由此得到結果,
模式串 bce 是主串 abbcefgh 的子串,
在主串第一次出現的位置下標是 2:
以上就是小灰想出的解決方案,
這個算法有一個名字,叫做BF算法,
是Brute Force(暴力算法)的縮寫。
上圖的情況,在每一輪進行字符匹配時,
模式串的前三個字符a都和主串中的字符相匹配,
一直檢查到模式串最后一個字符b,才發現不匹配:
這樣一來,
兩個字符串在每一輪都需要白白比較4次,
顯然非常浪費。
假設主串的長度是m,
模式串的長度是n,
那么在這種極端情況下,
BF算法的最壞時間復雜度是O(mn)。
————————————
比較哈希值是什么意思呢?
用過哈希表的朋友們都知道,
每一個字符串都可以通過某種哈希算法,
轉換成一個整型數,
這個整型數就是hashcode:
hashcode = hash(string)
顯然,相對于逐個字符比較兩個字符串,
僅比較兩個字符串的hashcode要容易得多。
給定主串和模式串如下
(假定字符串只包含26個小寫字母):
第一步,
我們需要生成模式串的hashcode。
生成hashcode的算法多種多樣,比如:
按位相加
這是最簡單的方法,
我們可以把a當做1,b當做2,c當做3......
然后把字符串的所有字符相加,
相加結果就是它的hashcode。
bce =??2 + 3 + 5 =?10
但是,這個算法雖然簡單,
卻很可能產生hash沖突,
比如bce、bec、cbe的hashcode是一樣的。
轉換成26進制數
既然字符串只包含26個小寫字母,
那么我們可以把每一個字符串當成一個26進制數來計算。
bce =?2*(26^2) +?3*26 +?5 =?1435
這樣做的好處是大幅減少了hash沖突,
缺點是計算量較大,
而且有可能出現超出整型范圍的情況,
需要對計算結果進行取模。
為了方便演示,
后續我們采用的是按位相加的hash算法,
所以bce的hashcode是10:
第二步,
生成主串當中第一個等長子串的hashcode。
由于主串通常要長于模式串,
把整個主串轉化成hashcode是沒有意義的,
只有比較主串當中和模式串等長的子串才有意義。
因此,
我們首先生成主串中第一個和模式串等長的子串hashcode,
即abb = 1 + 2 + 2 = 5:
第三步,比較兩個hashcode。
顯然,5!=10,
說明模式串和第一個子串不匹配,
我們繼續下一輪比較。
第四步,
生成主串當中第二個等長子串的hashcode。
bbc = 2 + 2 + 3 = 7:
第五步,比較兩個hashcode。
顯然,7!=10,說明模式串和第二個子串不匹配,
我們繼續下一輪比較。
第六步,生成主串當中第三個等長子串的hashcode。
bce= 2 + 3 + 5 = 10:
第七步,比較兩個hashcode。
顯然,10 ==10,兩個hash值相等!
這是否說明兩個字符串也相等呢?
別高興的太早,
由于存在hash沖突的可能,
我們還需要進一步驗證。
第八步,逐個字符比較兩字符串。
hashcode的比較只是初步驗證,
之后我們還需要像BF算法那樣,
對兩個字符串逐個字符比較,
最終判斷出兩個字符串匹配。
最后得出結論,
模式串bce是主串abbcefgh的子串,
第一次出現的下標是2。
什么意思呢?讓我們再來看一個例子:
上圖中,
我已知子串abbcefg的hashcode是26,
那么如何計算下一個子串,
也就是bbcefgd的hashcode呢?
我們沒有必要把子串的字符重新進行累加運算,
而是可以采用一個更簡單的方法。
由于新子串的前面少了一個a,
后面多了一個d,所以:
新hashcode = 舊hashcode - 1 + 4 = 26-1+4 = 29?
再下一個子串bcefgde的計算也是同理:
新hashcode?= 舊hashcode?- 2?+ 5?= 29-2+5?=?32
?
public?static?int?rabinKarp(String?str,?String?pattern){ //主串長度 int?m?=?str.length(); //模式串的長度 int?n?=?pattern.length(); //計算模式串的hash值 int?patternCode?=?hash(pattern); //計算主串當中第一個和模式串等長的子串hash值 int?strCode?=?hash(str.substring(0,?n));//用模式串的hash值和主串的局部hash值比較。 //如果匹配,則進行精確比較;如果不匹配,計算主串中相鄰子串的hash值。 for?(int?i=0;?i<m-n+1;?i++)?{ if(strCode?==?patternCode?&&?compareString(i,?str,?pattern)){ return?i; } //如果不是最后一輪,更新主串從i到i+n的hash值 if(i<m-n){ strCode?=?nextHash(str,?strCode,?i,?n); } }return?-1; }private?static?int?hash(String?str){ int?hashcode?=?0; //這里采用最簡單的hashcode計算方式: //把a當做1,把b當中2,把c當中3.....然后按位相加 for?(int?i?=?0;?i?<?str.length();?i++)?{ hashcode?+=?str.charAt(i)-'a'; } return?hashcode; }private?static?int?nextHash(String?str,?int?hash,?int?index,?int?n){ hash?-=?str.charAt(index)-'a'; hash?+=?str.charAt(index+n)-'a'; return?hash; }private?static?boolean?compareString(int?i,?String?str,?String?pattern)?{ String?strSub?=?str.substring(i,?i+pattern.length()); return?strSub.equals(pattern); }public?static?void?main(String[]?args)?{ String?str?=?"aacdesadsdfer"; String?pattern?=?"adsd"; System.out.println("第一次出現的位置:"?+?rabinKarp(str,?pattern)); }為了助力對抗疫情,減少線下人員流動和聚集,CSDN與 PyCon 官方授權的 PyCon中國社區合作,舉行「Python開發者日」在線系列峰會。通過精彩的技術干貨內容、有趣多元化的在線互動活動等,讓您足不出戶便可與大咖學習交流,共同渡過抗疫攻堅期。
活動咨詢,可掃描下方二維碼加入官方交流群??????
福利
掃描添加小編微信,備注“姓名+公司職位”,入駐【CSDN博客】,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
大數據抗疫的“洪荒之力”:多地政府借力大數據技術,多家企業上馬大數據產品
“云原生全家桶“KubeSphere 如何讓企業從容邁進云原生時代?
為什么說程序員做外包沒前途?
官宣了!受疫情影響,程序員可免費領這些!
12 大 AI App 技術創意,教你如何在 2020 年賺到錢!
遠程辦公絕非遠程監控,該如何挖掘遠程辦公的紅利?
總結
以上是生活随笔為你收集整理的云漫圈 | 什么是字符串匹配算法?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 首次落地中国大陆的OpenInfra:中
- 下一篇: 行!看到抖音上Python程序员晒得工资