windows文件服务器双机热备_遇到ZFS文件系统如此棘手的问题,这种办法简单又高效!...
一、ZFS文件系統(tǒng)
ZFS是一款128bit文件系統(tǒng),總?cè)萘渴乾F(xiàn)有64bit文件系統(tǒng)的1.84x10^19倍,其支持的單個存儲卷容量達到16EiB(2^64byte,即 16x1024x1024TB);一個zpool存儲池可以擁有2^64個卷,總?cè)萘孔畲?56ZiB(2^78byte);整個系統(tǒng)又可以擁有2^64個存儲 池。可以說在相當長的未來時間內(nèi),ZFS幾乎不太可能出現(xiàn)存儲空間不足的問題。另外,它還擁有自優(yōu)化,自動校驗數(shù)據(jù)完整性,存儲池/卷系統(tǒng)易管理等諸多優(yōu)點。較ext3系統(tǒng)有較大運行速率,提高大約30%-40%。
二、存儲環(huán)境部署:
用戶所使用存儲設備型號為ORACLE-SUN-ZFS7320,共使用40塊磁盤組建存儲池,其中四塊磁盤作為全局熱備。池內(nèi)劃分出若干空間映射到服務器使用,服務器操作系統(tǒng)為Windows。
三、故障情況:
在使用過程中進行文件遷移時存儲突然發(fā)生故障,無法讀取數(shù)據(jù)。設備管理界面報錯如圖所示:
四、用戶所需數(shù)據(jù):
恢復映射到windows服務器的其中一個大小為12T LUN中的丟失數(shù)據(jù)。在了解到上述情況后,開始制定恢復方案。
五、磁盤鏡像
為防止對客戶原始磁盤內(nèi)數(shù)據(jù)造成破壞,首先分別對各磁盤進行鏡像拷貝。拷貝過程中發(fā)現(xiàn)有兩塊磁盤內(nèi)有物理壞道無法生成鏡像,對其進行標注。
六、分析磁盤底層數(shù)據(jù)
獲取到磁盤鏡像后進行分析,發(fā)現(xiàn)其采用ZFS文件系統(tǒng)管理所有磁盤。但磁盤內(nèi)記錄系統(tǒng)元信息的NVLIST較為混亂,只能粗略得出以下信息:
1、磁盤被分為三組,每組12塊.
2、單個組內(nèi)使用ZFS特有的RAIDZ管理所有磁盤.
3、RAIDZ級別為2,即每個組內(nèi)可缺失磁盤個數(shù)最大為2.
4、全局熱備全部啟用.
七、故障推測
在ZFS文件系統(tǒng)中,池被稱為ZPOOL。ZPOOL的子設備可以有很多種類,包括塊設備、文件、磁盤等等,在本案例中所采用的是其中的一種------三組RAIDZ作為子設備。
經(jīng)過分析發(fā)現(xiàn),三組RAIDZ內(nèi)有兩組分別啟用熱備盤個數(shù)為1和3。在啟用熱備盤后,第一組內(nèi)仍出現(xiàn)一塊離線盤,第二組內(nèi)則出現(xiàn)兩塊。以此進行故障現(xiàn)場模擬:三組RAIDZ內(nèi)第一二組分別出現(xiàn)離線盤,熱備盤及時進行替換;熱備盤無冗余狀態(tài)下第一組出現(xiàn)一塊離線盤,第二組出現(xiàn)兩塊離線盤,ZPOOL進入高負荷狀態(tài)(每次讀取數(shù)據(jù)都需要進行校驗得到正確數(shù)據(jù));第二組內(nèi)出現(xiàn)第三塊離線盤,RAIDZ崩潰,ZPOOL下線。
八、ZPOOL重組
ZFS管理的存儲池與常規(guī)存儲不同,所有磁盤都由ZFS進行管理。常規(guī)RAID在存儲數(shù)據(jù)時,只按照特定的規(guī)則組建池,不關心文件在子設備上的位置。而ZFS在數(shù)據(jù)存儲時會為每次寫入的數(shù)據(jù)分配適當大小的空間,并計算得到指向子設備的數(shù)據(jù)指針。這種特性使得RAIDZ缺盤時無法直接進行校驗得到數(shù)據(jù),必須將整個ZPOOL作為一個整體進行解析。
九、追蹤最新數(shù)據(jù)入口
在ZFS文件系統(tǒng)內(nèi)每次發(fā)生文件系統(tǒng)狀態(tài)更新時都會產(chǎn)生新的文件系統(tǒng)入口,所以需要根據(jù)其內(nèi)部記錄的事務塊獲取最新狀態(tài)下的入口指針。手工截取事務塊數(shù)據(jù),編寫程序獲取最大事務號入口:
獲取到最新狀態(tài)的文件系統(tǒng)入口后,編寫數(shù)據(jù)指針解析程序進行地址解析:
獲取到文件系統(tǒng)入口點在各磁盤分布情況后,開始手工截取并分析文件系統(tǒng)內(nèi)部結構,入口分布所在的磁盤組無缺失盤,可直接提取信息。根據(jù)ZFS文件系統(tǒng)的數(shù)據(jù)存儲結構順利找到客戶映射的LUN名稱,進而找到其節(jié)點。
十、運行提取程序
編輯配置文件,提取ZVOL卷:
由于磁盤組內(nèi)缺盤個數(shù)較多,每個IO流都需要通過PQ校驗得到,提取進度極為緩慢。與客戶溝通后得知,此ZVOL卷映射到XenServer作為存儲設備,客戶所需的文件在其中一個大小約為1.8T的vhd內(nèi)。提取ZVOL卷頭部信息,按照XenStore卷存儲結構進行分析,發(fā)現(xiàn)1.8Tvhd在整個卷的尾部,計算得到其起始位置后從此位置開始提取數(shù)據(jù)。
十一、驗證數(shù)據(jù)完整性
Vhd提取完畢后,對其內(nèi)部的壓縮包及圖片、視頻等文件進行驗證,均可正常打開。經(jīng)用戶驗證數(shù)據(jù),確定文件數(shù)量與系統(tǒng)自動記錄的文件個數(shù)所差無幾,丟失文件可能是最新生成還未刷新到磁盤。驗證文件可用性,文件可正常打開,驗收完成,至此數(shù)據(jù)恢復工作結束。
總結
以上是生活随笔為你收集整理的windows文件服务器双机热备_遇到ZFS文件系统如此棘手的问题,这种办法简单又高效!...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10系统浏览器怎么用 win10浏
- 下一篇: volkswagen怎么读?