重复数据删除:块级技术VS.字节级技术
塊級(jí)技術(shù)
塊級(jí)重復(fù)數(shù)據(jù)刪除技術(shù)將數(shù)據(jù)流分割成塊,檢查數(shù)據(jù)塊,并判定之前是否碰到相同的數(shù)據(jù)塊(通常對(duì)每個(gè)數(shù)據(jù)塊執(zhí)行散列算法,形成數(shù)字簽名或獨(dú)特的標(biāo)識(shí)符)。如果數(shù)據(jù)塊是唯一的,就被寫(xiě)入磁盤,其標(biāo)識(shí)符也存入索引中;否則,僅存入指針,指向存儲(chǔ)相同數(shù)據(jù)塊的原始位置。這種方法用小容量的指針替代重復(fù)的數(shù)據(jù)塊,而不是將重復(fù)數(shù)據(jù)塊再次存儲(chǔ),這樣就節(jié)省了磁盤存儲(chǔ)空間。
塊級(jí)技術(shù)的缺點(diǎn)為:1)利用散列算法計(jì)算獨(dú)一無(wú)二的ID,可能產(chǎn)生錯(cuò)誤;2)將唯一的ID存入索引中,當(dāng)索引擴(kuò)大,需要磁盤I/O時(shí),檢查過(guò)程就會(huì)變慢(除非控制索引大小,在存儲(chǔ)器中完成數(shù)據(jù)比較工作)。
利用散列算法判斷重復(fù)數(shù)據(jù)時(shí),散列之間的沖突可能引發(fā)錯(cuò)誤。MD5、SHA-1等散列算法都是針對(duì)檢查的數(shù)據(jù)塊,形成唯一的編碼。雖然有可能發(fā)生散列沖突和數(shù)據(jù)損壞,但幾率較小。
字節(jié)級(jí)重復(fù)數(shù)據(jù)刪除
從字節(jié)級(jí)別上分析數(shù)據(jù)流是重復(fù)數(shù)據(jù)刪除的另外一種方法。將新數(shù)據(jù)流和已存儲(chǔ)的數(shù)據(jù)流挨個(gè)比較字節(jié),能夠?qū)崿F(xiàn)更高的精度。使用這種技術(shù)的重復(fù)數(shù)據(jù)刪除產(chǎn)品具有一個(gè)共同點(diǎn):可能之前已見(jiàn)過(guò)流入的數(shù)據(jù)流,因此就會(huì)檢查其是否與之前接收的數(shù)據(jù)相符。
采用字節(jié)級(jí)技術(shù)的產(chǎn)品通常能“識(shí)別內(nèi)容”,也就是說(shuō),供應(yīng)商對(duì)備份程序的數(shù)據(jù)流執(zhí)行了逆向工程,從而了解如何檢索文件名、文件種類、日期/時(shí)間戳記等信息。在判斷重復(fù)數(shù)據(jù)時(shí),這種方法能夠減少計(jì)算量。警告呢?這種方法通常在后處理階段發(fā)揮作用——備份完成后,判斷備份數(shù)據(jù)是否重復(fù)。因此,需要備份整個(gè)磁盤的數(shù)據(jù),必須具有磁盤緩存,才能執(zhí)行重復(fù)數(shù)據(jù)刪除過(guò)程。而且,重復(fù)數(shù)據(jù)刪除過(guò)程可能僅局限于某個(gè)備份組的備份數(shù)據(jù)流,而不是應(yīng)用到整個(gè)備份組中。
完成了重復(fù)數(shù)據(jù)刪除過(guò)程后,字節(jié)級(jí)技術(shù)能收回磁盤空間。在收回空間之前,應(yīng)執(zhí)行一致性檢驗(yàn),以保證刪除重復(fù)數(shù)據(jù)以后,仍能滿足原始數(shù)據(jù)的目標(biāo)。保留最后一次的完全備份,這樣恢復(fù)過(guò)程就不必依賴重構(gòu)后的數(shù)據(jù),加快恢復(fù)過(guò)程。
哪種方法效果最佳?
塊級(jí)和字節(jié)級(jí)刪除技術(shù)都能優(yōu)化存儲(chǔ)容量。針對(duì)你的備份環(huán)境及其需求,核定執(zhí)行刪除過(guò)程的時(shí)間、位置和方法,然后再?zèng)Q定選擇哪種方法。核定內(nèi)容還包括:參考那些與你的公司具有相似特征和需求的公司。
作者:佚名 來(lái)源:51CTO總結(jié)
以上是生活随笔為你收集整理的重复数据删除:块级技术VS.字节级技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 物联网离风口还差最关键一环?
- 下一篇: 书生云王东临:真正的超融合产品要像“机器