灾难恢复级别_防患于未然:灾难恢复全攻略,助你有效恢复业务数据
簡(jiǎn)? 介
在前Kubernetes和前容器時(shí)代,備份和恢復(fù)的解決方案往往在虛擬機(jī)層級(jí)實(shí)現(xiàn)。這種方法適用于傳統(tǒng)應(yīng)用程序,特別是當(dāng)一個(gè)應(yīng)用程序運(yùn)行在單一虛擬機(jī)上時(shí)。但是當(dāng)應(yīng)用程序已經(jīng)容器化并且由諸如Kubernetes等容器編排系統(tǒng)來(lái)管理,那么這個(gè)備份恢復(fù)系統(tǒng)就會(huì)崩塌。這意味著Kubernetes的有效災(zāi)難恢復(fù)(DR)計(jì)劃必須為容器化架構(gòu)設(shè)計(jì),并可以理解Kubernetes的功能。
Rancher提供了一個(gè)自動(dòng)化配置etcd數(shù)據(jù)庫(kù)的循環(huán)備份機(jī)制,無(wú)論是對(duì)于Rancher管理的集群(RMC)還是下游Kubernetes集群該機(jī)制均生效。萬(wàn)一出現(xiàn)災(zāi)難,你可以使用這些備份(或稱(chēng)之為snapshots)來(lái)恢復(fù)Kubernetes備份和Rancher數(shù)據(jù)庫(kù)以及狀態(tài)。以這種方法,Rancher可以幫助你確保你的集群得到保護(hù)并且在災(zāi)難情況下有可能恢復(fù)。
正如你可以想象的那樣,在DR場(chǎng)景中完全恢復(fù)用戶(hù)工作負(fù)載還需要許多其他步驟。在這篇文章中,我們將指出DR場(chǎng)景的主要組件,以及如何在Kubernetes環(huán)境中安全地實(shí)現(xiàn)它們。
根據(jù)各種不同因素,DR準(zhǔn)備有不同的級(jí)別。這些因素包括基礎(chǔ)設(shè)施的自動(dòng)化程度、應(yīng)用程序結(jié)構(gòu)和部署流程、存儲(chǔ)、網(wǎng)絡(luò)、云原生應(yīng)用和微服務(wù)的專(zhuān)業(yè)知識(shí)以及Kubernetes管理經(jīng)驗(yàn)。然而,一個(gè)成功的DR策略中最關(guān)鍵的組成部分是盡可能頻繁地測(cè)試和記錄你的操作流程。就像沒(méi)有測(cè)試恢復(fù)程序的備份是沒(méi)有用的一樣,沒(méi)有扎實(shí)的記錄文檔和反復(fù)驗(yàn)證的DR計(jì)劃也是沒(méi)有用的。
一個(gè)成功的災(zāi)難恢復(fù)場(chǎng)景所需組件
在一個(gè)DR場(chǎng)景中,需要考慮以下組件列表。在DR情況下如何處理這些組件決定了企業(yè)應(yīng)對(duì)快速危機(jī)恢復(fù)的準(zhǔn)備程度。我們的目標(biāo)是盡可能地使更多組件擁有自動(dòng)化流程。
1、 備份
etcd(集群數(shù)據(jù)庫(kù))
statefile(集群配置)
集群配置文件(集群配置)
證書(shū)(集群配置)
持久化存儲(chǔ)(有狀態(tài)應(yīng)用程序)
容器(由應(yīng)用程序使用的鏡像)
2、 基礎(chǔ)設(shè)施
集群節(jié)點(diǎn)
負(fù)載均衡器
備份
- etcd
- statefile
- 集群配置
3、 應(yīng)用程序
容器鏡像(鏡像倉(cāng)庫(kù))
manifest(Helm或Kubernetes)
4、 DNS
需要對(duì)你的域進(jìn)行控制
這不是一個(gè)全面的清單。針對(duì)你的特定環(huán)境,你可能有更多(或更少)的組件類(lèi)型需要考慮。企業(yè)IT團(tuán)隊(duì)已經(jīng)管理了其中的一些組件,這進(jìn)一步推動(dòng)了DevOps概念和方法所倡導(dǎo)的協(xié)作工作環(huán)境的理念。
災(zāi)難恢復(fù)準(zhǔn)備級(jí)別
許多公司正處于數(shù)字化轉(zhuǎn)型時(shí)期,而Kubernetes是這一歷程中不可或缺的一部分。每個(gè)企業(yè)都有一個(gè)獨(dú)特的環(huán)境,具有特定的能力和專(zhuān)業(yè)知識(shí),這意味著他們有不同的DR準(zhǔn)備水平。這些技能和能力的范圍包括從基礎(chǔ)設(shè)施自動(dòng)化狀態(tài)到CI/CD流程,從源控制管理到備份策略等。好消息是,你的企業(yè)開(kāi)發(fā)的這些能力越多,你的準(zhǔn)備級(jí)別就越高。這樣一來(lái),DR就變成了一個(gè)幾乎平淡無(wú)奇的事情,你的企業(yè)可以在最小的人為干預(yù)下進(jìn)行快速處理。
Level 1:手動(dòng)重新部署
備份:自動(dòng)循環(huán)
程序:經(jīng)過(guò)測(cè)試和記錄的流程
基礎(chǔ)設(shè)施:備用基礎(chǔ)設(shè)施
DNS:手動(dòng)故障切換
Apps:手動(dòng)恢復(fù)應(yīng)用程序
這是最常見(jiàn)的情況之一。自動(dòng)循環(huán)備份用于將集群狀態(tài)恢復(fù)到災(zāi)難恢復(fù)(DR)站點(diǎn)的備用基礎(chǔ)設(shè)施。這些過(guò)程都有很好的記錄并定期測(cè)試。一個(gè)好的恢復(fù)測(cè)試是可以讓你的團(tuán)隊(duì)最新成員能夠直接按照記錄文檔來(lái)實(shí)現(xiàn)一個(gè)功能齊全的DR環(huán)境。
這種級(jí)別的災(zāi)難恢復(fù)準(zhǔn)備對(duì)大多數(shù)企業(yè)來(lái)說(shuō)是足夠的,因?yàn)樗鼊?chuàng)造了一個(gè)可重復(fù)的、有據(jù)可查的過(guò)程。它可能會(huì)被認(rèn)為比其他流程慢,因?yàn)榇蠖鄶?shù)活動(dòng)都是手動(dòng)的,并且必須遵循一個(gè)非常嚴(yán)格的時(shí)間表。在這個(gè)層面上,你還需要考慮人的因素。我們都知道,由于不可預(yù)測(cè)的實(shí)施錯(cuò)誤,手動(dòng)操作會(huì)在一些流程中引入風(fēng)險(xiǎn)。這就是為什么需要通過(guò)使用腳本和自動(dòng)化來(lái)進(jìn)行優(yōu)化。
Level 2:腳本重新部署
備份:自動(dòng)循環(huán)
程序:測(cè)試和記錄步驟
基礎(chǔ)設(shè)施:腳本部署
DNS:使用腳本進(jìn)行故障切換
Apps:使用腳本恢復(fù)應(yīng)用程序
這是一種更高級(jí)的方案,在這種方案中,你的集群的還原是在按需部署的基礎(chǔ)設(shè)施上完成的。?仍然需要備份來(lái)提供還原源。?這些步驟都有完善的記錄文檔并定期測(cè)試。災(zāi)難恢復(fù)站點(diǎn)的基礎(chǔ)設(shè)施使用腳本方法部署,每次測(cè)試或執(zhí)行災(zāi)難恢復(fù)計(jì)劃時(shí),都會(huì)提供一個(gè)相同的環(huán)境。?腳本方法也可以應(yīng)用于DNS更改和應(yīng)用程序部署的實(shí)施。
這種級(jí)別的DR準(zhǔn)備非常有效,因?yàn)樗薉R過(guò)程結(jié)果的隨機(jī)性。雖然它需要更多的配置工作和內(nèi)部專(zhuān)業(yè)知識(shí)來(lái)維護(hù),但其結(jié)果是更好地保護(hù)你的企業(yè)免受任何災(zāi)難情況的影響。此外,這種方案還能大幅縮短恢復(fù)時(shí)間,這對(duì)于在這方面有強(qiáng)制要求的企業(yè)來(lái)說(shuō)是一個(gè)很大的優(yōu)勢(shì)。
Level 3:全自動(dòng)重新部署
備份:自動(dòng)循環(huán)。持久化數(shù)據(jù)由企業(yè)管理,自動(dòng)復(fù)制到DR站點(diǎn)。
程序:DR程序的自動(dòng)化定期測(cè)試
基礎(chǔ)設(shè)施:基礎(chǔ)設(shè)施的全自動(dòng)化重新部署
Apps:全自動(dòng)化重新部署Apps
DNS:自動(dòng)化故障切換
這是最高級(jí)的級(jí)別,在這個(gè)級(jí)別中,所有的事情都是自動(dòng)化的,可以 "一觸即發(fā) "地重新部署。在這種情況下,不會(huì)執(zhí)行還原(restore)。
你會(huì)在某個(gè)集群的同一站點(diǎn)恢復(fù)的情況下使用循環(huán)備份。基礎(chǔ)設(shè)施、Rancher管理集群和下游集群都是按需部署的。DNS變化也是使用全局流量管理(GTM)工具自動(dòng)進(jìn)行故障轉(zhuǎn)移。應(yīng)用程序的部署是完全自動(dòng)化的。
如果這個(gè)級(jí)別聽(tīng)起來(lái)有些夢(mèng)幻和理想,那是因?yàn)樗茈y實(shí)現(xiàn)。它需要圍繞執(zhí)行DR計(jì)劃所涉及的所有組件有深入的專(zhuān)業(yè)知識(shí)。當(dāng)然,它也需要更長(zhǎng)的時(shí)間來(lái)配置,但結(jié)果是值得的。在某種程度上,這是微服務(wù)架構(gòu)的最終目標(biāo):能夠在幾分鐘內(nèi)重新部署整個(gè)環(huán)境,從基礎(chǔ)設(shè)施到應(yīng)用程序,而無(wú)需任何人工干預(yù)。
自動(dòng)化Rancher管理集群的災(zāi)難恢復(fù)
備份:自動(dòng)循環(huán)
程序:DR步驟的定期測(cè)試
基礎(chǔ)設(shè)施:備用Rancher管理集群
DNS:手動(dòng)/使用腳本進(jìn)行故障切換
這個(gè)方案只適用于Rancher管理集群,你會(huì)發(fā)現(xiàn)在企業(yè)中,需要一個(gè)覆蓋每個(gè)應(yīng)用的DR計(jì)劃。DR站點(diǎn)的基礎(chǔ)設(shè)施已經(jīng)被構(gòu)建為恢復(fù)操作的備用目標(biāo)。對(duì)主站點(diǎn)(Rancher)進(jìn)行監(jiān)控,如果滿(mǎn)足DR條件,則宣布故障轉(zhuǎn)移,并使用腳本方式將Rancher管理集群恢復(fù)到備用集群。DNS被手動(dòng)或通過(guò)企業(yè)解決方案(如BIG-IP的全球流量管理(GTM))重定向。一旦Rancher集群恢復(fù),下游Kubernetes集群會(huì)在幾分鐘內(nèi)自動(dòng)重新連接到新的Rancher server。請(qǐng)注意,這個(gè)場(chǎng)景假設(shè)下游集群沒(méi)有受到災(zāi)難的影響(即在云端運(yùn)行)。
總? 結(jié)
我們不能低估災(zāi)難恢復(fù)計(jì)劃的重要性。只有通過(guò)強(qiáng)大的規(guī)劃、測(cè)試和文檔記錄,企業(yè)才能確保快速恢復(fù),且不會(huì)造成重大數(shù)據(jù)損失。你應(yīng)該定期(比如,每季度一次)測(cè)試你的DR計(jì)劃和程序。
Rancher管理著Kubernetes集群,Kubernetes集群首先是一個(gè)高可用的分布式系統(tǒng)。這些系統(tǒng)由于其預(yù)期高可用性和零停機(jī)時(shí)間的本質(zhì),對(duì)企業(yè)來(lái)說(shuō)極為重要。在Kubernetes的世界里,將恢復(fù)時(shí)間減少到最低限度,并在幾分鐘內(nèi)恢復(fù)應(yīng)用功能是非常重要的。你可以通過(guò)自動(dòng)化、腳本和定期測(cè)試你的DR計(jì)劃和程序來(lái)實(shí)現(xiàn)這一點(diǎn)。
推薦閱讀
減少80%的集群部署時(shí)間,育碧攜手Rancher推動(dòng)游戲創(chuàng)新
誤刪節(jié)點(diǎn)或集群怎么辦?這里有一顆后悔藥
如何簡(jiǎn)潔優(yōu)雅地部署PostgreSQL和Pgweb?
About Rancher Labs
Rancher Labs由CloudStack之父梁勝創(chuàng)建。旗艦產(chǎn)品Rancher是一個(gè)開(kāi)源的企業(yè)級(jí)Kubernetes管理平臺(tái),實(shí)現(xiàn)了Kubernetes集群在混合云+本地?cái)?shù)據(jù)中心的集中部署與管理。Rancher一向因操作體驗(yàn)的直觀、極簡(jiǎn)備受用戶(hù)青睞,被Forrester評(píng)為2018年全球容器管理平臺(tái)領(lǐng)導(dǎo)廠商,被Gartner評(píng)為2017年全球最酷的云基礎(chǔ)設(shè)施供應(yīng)商。
目前Rancher在全球擁有超過(guò)三億的核心鏡像下載量,并擁有包括中國(guó)聯(lián)通、中國(guó)平安、中國(guó)人壽、上汽集團(tuán)、三星、西門(mén)子、WWK保險(xiǎn)集團(tuán)、澳電訊公司、德國(guó)鐵路、廈門(mén)航空、新東方等全球著名企業(yè)在內(nèi)的共40000家企業(yè)客戶(hù)。
總結(jié)
以上是生活随笔為你收集整理的灾难恢复级别_防患于未然:灾难恢复全攻略,助你有效恢复业务数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 灯光插件_Light Kit Pro 3
- 下一篇: 整合rpc远程调用_远程过程调用(RPC