Apsara Stack 技术百科 | 数字化业务系统安全工程
數(shù)字化時代,如果說哪些信息是最受關(guān)注的,能不能上“熱搜”一定是評價的方法之一。在每天進入“熱搜”的新聞中,有一類事件不僅上熱搜的頻率高,并且熱搜的名稱格式也高度統(tǒng)一,那就是“某某崩了”或者“某某打不開了”。這里“某某”指那些與我們生活息息相關(guān)的數(shù)字化平臺,可能是購物平臺,也可能是信息分享平臺。之所以人們?nèi)绱说年P(guān)注這類事件,因為這些數(shù)字化平臺已經(jīng)與我們生活緊密結(jié)合,其用戶規(guī)模龐大,一旦系統(tǒng)出現(xiàn)故障,勢必會造成一定生活的不便。比如疫情時代,健康碼已經(jīng)成為人們出門必備的條件,一旦提供健康碼服務(wù)平臺出現(xiàn)故障,出行將變得寸步難行。
系統(tǒng)安全問題成為威脅企業(yè)正常運行的重大風(fēng)險
數(shù)字化系統(tǒng)在給我們生活帶來便利的同時,也提升了他在人們生活中的重要性,一旦系統(tǒng)出現(xiàn)故障,不僅僅會影響到業(yè)務(wù)的正常運行,也會影響到用戶的日常生活和體驗。因此,系統(tǒng)安全問題成為威脅企業(yè)正常運行的重大風(fēng)險,其安全穩(wěn)定將變的越來越重要。
在此背景下,一方面企業(yè)開始加大系統(tǒng)安全領(lǐng)域的投入,另一方面國家監(jiān)管要求也變得越來越高。2021年6月10日,第十三屆全國人民代表大會通過了《全國人民代表大會常務(wù)委員會關(guān)于修改[中華人民共和國安全生產(chǎn)法]的決定》,自2021年9月1日實施。新安全生產(chǎn)法首次提出平臺經(jīng)濟等新興行業(yè)、領(lǐng)域的生產(chǎn)經(jīng)營單位應(yīng)當(dāng)根據(jù)本行業(yè)、領(lǐng)域的特點,建立健全并落實全員安全生產(chǎn)責(zé)任制,加強從業(yè)人員安全生產(chǎn)教育和培訓(xùn),履行有關(guān)安全生產(chǎn)義務(wù)。在工信部和應(yīng)急管理部印發(fā)《“工業(yè)互聯(lián)網(wǎng)+安全生產(chǎn)”行動計劃(2021-2023年)》中,也提出了要增強工業(yè)安全生產(chǎn)的感知、監(jiān)測、預(yù)警、處置和評估能力,加速安全生產(chǎn)從靜態(tài)分析向動態(tài)感知、事后應(yīng)急向事前預(yù)防、單點防控向全局聯(lián)防的轉(zhuǎn)變,提升工業(yè)生產(chǎn)本質(zhì)安全水平。
內(nèi)部風(fēng)險成為威脅系統(tǒng)安全的主要風(fēng)險之一
在影響系統(tǒng)穩(wěn)定和安全的原因中,按照其發(fā)生的主體,可以分為外部安全和內(nèi)部安全,外部安全指常見由于黑客攻擊、木馬、DDOS攻擊等原因?qū)е碌南到y(tǒng)安全問題,而內(nèi)部安全則是由誤操作、變更故障、程序缺陷、硬件故障等原因?qū)е碌南到y(tǒng)安全問題。外部安全屬于信息安全的覆蓋域,目前已經(jīng)相對成熟,而內(nèi)部風(fēng)險的控制還是薄弱環(huán)節(jié)。
通過對企業(yè)內(nèi)部安全故障原因分析可以發(fā)現(xiàn),其中變更類故障導(dǎo)致的安全問題約占60-70%,環(huán)境變化類故障(如流量過大)導(dǎo)致的問題約占約15-25%,硬件類故障約占約5-15%。由此可見,由于變更風(fēng)險導(dǎo)致的系統(tǒng)安全問題是威脅系統(tǒng)安全的主要風(fēng)險之一。
傳統(tǒng)風(fēng)險控制方法難以解決內(nèi)部風(fēng)險帶來的系統(tǒng)安全挑戰(zhàn)
傳統(tǒng)變更風(fēng)險的控制是通過制度規(guī)范、宣貫、審批等方式來進行控制,由于風(fēng)險控制復(fù)雜性,通過傳統(tǒng)方式進行風(fēng)險管控存在較大挑戰(zhàn),主要表現(xiàn)在:
1)產(chǎn)品更新迭代快,僅靠制度和人工審核控制風(fēng)險難度大。由于目前數(shù)字化產(chǎn)品研發(fā)追求敏捷性,產(chǎn)品迭代頻繁,可能導(dǎo)致系統(tǒng)故障發(fā)生頻繁,而規(guī)章制度難以深入到產(chǎn)品研發(fā)、運維細節(jié)中,執(zhí)行難度較大。通過人工審核、審批的方式成本高,難以直接量化風(fēng)險,在需要大量審核的場景下,容易忽視風(fēng)險。
2)系統(tǒng)安全涉及范圍廣,控制成本高。范圍廣主要體現(xiàn)在數(shù)字化系統(tǒng)和人員范圍廣,數(shù)字化系統(tǒng)包括重要業(yè)務(wù)系統(tǒng)、相應(yīng)變更系統(tǒng)(云資源變更、應(yīng)用變更、業(yè)務(wù)變更);人員包括產(chǎn)品、研發(fā)、測試、運維、運營人員等。
3)點狀風(fēng)險控制方案難以有效控制風(fēng)險,控制效果差。風(fēng)險控制是復(fù)雜系統(tǒng)工程,控制效果受短板影響明顯,沒有體系化控制手段,難有效控制風(fēng)險發(fā)生。
解決方案實踐
系統(tǒng)故障誘因復(fù)雜,這導(dǎo)致單點控制很難解決問題,需要一個系統(tǒng)化解決方案。第一屆天貓雙十一,開發(fā)和運維人員需要整夜保障,隨時解決出現(xiàn)的問題,即便這樣,也會出一些意想不到的故障。2020年雙十一用戶數(shù)量和銷售規(guī)模與第一屆雙十一對比,已經(jīng)不可同日而語,系統(tǒng)也更加復(fù)雜,但雙十一大促系統(tǒng)保障過程卻越來越流暢,保障人數(shù)也在持續(xù)降低,這背后就是一個系統(tǒng)化解決方案。
組織的頂層設(shè)計
組織設(shè)計是指從組織層面設(shè)置專門組織機構(gòu)來負責(zé)系統(tǒng)穩(wěn)定和安全,包括最高層安全生產(chǎn)委員會和各個研發(fā)部門穩(wěn)定性負責(zé)人。安全生產(chǎn)委員會職能包括負責(zé)全局穩(wěn)定性決策、安全生產(chǎn)規(guī)則制定、整體應(yīng)急協(xié)同、安全文化培養(yǎng)、全局管控系統(tǒng)的規(guī)劃與管理。當(dāng)故障發(fā)生時,由相關(guān)人員負責(zé)故障應(yīng)急與統(tǒng)籌,各研發(fā)部門穩(wěn)定性負責(zé)人負責(zé)各系統(tǒng)風(fēng)險治理和穩(wěn)定性保障,在研發(fā)、運維過程中避免系統(tǒng)故障出現(xiàn)。
事前的風(fēng)險預(yù)防
防患于未然是安全最高能力。首先,事前風(fēng)險預(yù)防包括事前分析系統(tǒng)各個組成要素、組成要素可能面臨威脅和存在脆弱性,并將分析結(jié)果作為安全治理輸入。對于威脅,需要制定相應(yīng)措施避免或減少威脅發(fā)生。對于脆弱性,需要針對性進行鞏固,比如對于經(jīng)常會導(dǎo)致系統(tǒng)故障的系統(tǒng)變配操作,通過統(tǒng)一的變更平臺集中管理各種變配申請,從而實現(xiàn)對變配操作集中管控。其次,通過最小權(quán)限原則,限制操作人操作權(quán)限,包括操作時間限制、操作對象限制和操作范圍限制。另外,每一次的變配操作,系統(tǒng)可以根據(jù)操作人、操作對象、操作類型等要素,計算操作過程中存在的風(fēng)險,一旦發(fā)現(xiàn)過程中存在確定風(fēng)險,則會直接阻斷當(dāng)前操作;如果是高風(fēng)險,則會發(fā)起交叉確認流程;如果是低風(fēng)險,則會直接放行。這種方式,既實現(xiàn)了對風(fēng)險的實時管控,防止由于人為失誤導(dǎo)致故障,同時又平衡了研發(fā)效率與安全生產(chǎn)間關(guān)系。
事中的實時觀測
快速發(fā)現(xiàn)是避免損失擴大的重要手段。首先,在系統(tǒng)運行過程中,通過業(yè)務(wù)指標(biāo)觀測、應(yīng)用程序觀測、云資源觀測相結(jié)合的方式,能夠及時發(fā)現(xiàn)系統(tǒng)存在的問題,一旦發(fā)現(xiàn)故障,按照事先制定的預(yù)案,系統(tǒng)會通知相關(guān)人員進行處理。其次,基于大數(shù)據(jù)和人工智能算法,平臺會實時預(yù)測相關(guān)指標(biāo)變化趨勢,將故障預(yù)警時間再次提前。
事后的快速恢復(fù)
盡管事前事中制定了詳盡的方案,但是還是很難避免故障發(fā)生。一旦故障發(fā)生,如何快速進行故障恢復(fù)就是首要事情。按照故障不同類型,可以使用故障恢復(fù)手段有限流、攔截、熔斷、快恢、降級、擴容、切流、重啟等。不同恢復(fù)方式都需要有相應(yīng)系統(tǒng)支持和日常演練測試。
故障恢復(fù)后,安全生產(chǎn)委員會還需要組織相關(guān)人員排查和分析故障原因,制定整改方案,確定故障責(zé)任人,推進和落實整改方案,防止相同故障再次發(fā)生。
業(yè)務(wù)系統(tǒng)安全工程
從以上的實踐過程可以看出,企業(yè)很難依靠單一手段解決系統(tǒng)故障,而需要通過系統(tǒng)化的手段,從頂層的組織設(shè)計、事前的風(fēng)險分析和策略制定、事中的持續(xù)監(jiān)測和預(yù)警、日常的演練和事后的應(yīng)急響應(yīng)等多方面進行控制。
在傳統(tǒng)行業(yè)中,為了保證生產(chǎn)經(jīng)營活動能夠正常運行,國家制定了一系列的措施使生產(chǎn)過程在符合規(guī)定的物質(zhì)條件和工作秩序下進行,從而有效消除或控制危險和有害因素,減少人身傷亡和財產(chǎn)損失,保障人員安全與健康、設(shè)備和設(shè)施免受損壞、環(huán)境免遭破壞。在建筑、石油化工、交通運輸、航空航天等行業(yè),安全生產(chǎn)已相對成熟和完備,但在互聯(lián)網(wǎng)領(lǐng)域還是空白。以下圖采礦業(yè)安全生產(chǎn)流程為例,我們可以看出安全生產(chǎn)的管理要求已經(jīng)落實到了作業(yè)的各個過程和環(huán)節(jié)。
參考傳統(tǒng)行業(yè)中的安全生產(chǎn)解決方案,同時結(jié)合阿里巴巴內(nèi)部的最佳實踐,我們提出了業(yè)務(wù)系統(tǒng)安全工程解決方案,該方案是指導(dǎo)業(yè)務(wù)系統(tǒng)防范故障的安全指南,其目標(biāo)是通過預(yù)防、監(jiān)測預(yù)警、應(yīng)急響應(yīng)等手段,減少業(yè)務(wù)系統(tǒng)故障,保障業(yè)務(wù)系統(tǒng)穩(wěn)定、可用和可靠,防范由于業(yè)務(wù)系統(tǒng)故障導(dǎo)致的資產(chǎn)損失和用戶影響。
業(yè)務(wù)系統(tǒng)安全工程框架
由于業(yè)務(wù)系統(tǒng)以及故障原因的復(fù)雜性,單純的從一個或多個點出發(fā)很難解決問題。業(yè)務(wù)系統(tǒng)安全工程以控制論和系統(tǒng)論為指導(dǎo),以風(fēng)險控制方法為工具,形成了自己的實施框架 IPDRI,即識別(identify)、預(yù)防(protect)、監(jiān)測(detect)、恢復(fù)(recover)和改進(improvement)五個環(huán)節(jié)。從事前、事中、事后進行風(fēng)險的控制,形成閉環(huán)的反饋網(wǎng)絡(luò)。
其中,識別包括資產(chǎn)分析、威脅識別、脆弱性識別等。預(yù)防是為了避免風(fēng)險的發(fā)生而采取的一定的預(yù)防措施。監(jiān)測是監(jiān)測系統(tǒng)和保護措施是否在正常的運行。恢復(fù)是在故障出現(xiàn)時快速的采取措施恢復(fù)系統(tǒng)的運行。改進是查找故障原因,制定改進方案避免相同故障的再次發(fā)生。
業(yè)務(wù)系統(tǒng)安全工程標(biāo)準(zhǔn)
在此背景下,阿里云聯(lián)合國家信通院牽頭起草了《基于云計算的數(shù)字化業(yè)務(wù)安全工程標(biāo)準(zhǔn)》,該標(biāo)準(zhǔn)是國內(nèi)首部聚焦于保護系統(tǒng)持續(xù)正常運行的行業(yè)標(biāo)準(zhǔn)。標(biāo)準(zhǔn)核心目標(biāo)是保護業(yè)務(wù)系統(tǒng)能夠持續(xù)正常運行,防范由于業(yè)務(wù)系統(tǒng)故障導(dǎo)致資產(chǎn)損失和用戶影響,保證系統(tǒng)可用、穩(wěn)定和可靠。
標(biāo)準(zhǔn)規(guī)定了企業(yè)實現(xiàn)業(yè)務(wù)系統(tǒng)持續(xù)正常運行需要具備的各項能力,包括組織設(shè)計能力、風(fēng)險分析與識別能力、策略與管控能力、監(jiān)測與預(yù)警能力以及應(yīng)急響應(yīng)能力。
其中:
· ? ? ? 組織設(shè)計能力規(guī)定企業(yè)應(yīng)設(shè)立頂層安全生產(chǎn)委員會,下轄公司安全生產(chǎn)部門,用技術(shù)手段提升風(fēng)險控制能力,保障業(yè)務(wù)穩(wěn)定;打造安全生產(chǎn)文化,確保人人重視、有持續(xù)性提升;明確行為準(zhǔn)則,用機制保護人,減少犯錯,降低損失,以此快速推進穩(wěn)定治理,大幅收斂公司全局性故障和重大影響故障。
· ? ? ? 風(fēng)險分析與識別模塊幫助企業(yè)通過對系統(tǒng)脆弱性、業(yè)務(wù)安全生產(chǎn)需求、系統(tǒng)已發(fā)生故障分析,尋找影響信息系統(tǒng)安全生產(chǎn)的潛在風(fēng)險。
· ? ? ? 策略與管控模塊是針對已經(jīng)分析發(fā)現(xiàn)的風(fēng)險制定安全生產(chǎn)管控策略,通過降低、預(yù)防威脅發(fā)生,提前鞏固、消除脆弱性等手段預(yù)防風(fēng)險的發(fā)生。
· ? ? ? 觀測與預(yù)警模塊是通過業(yè)務(wù)狀態(tài)觀測、云資源狀態(tài)觀測、大數(shù)據(jù)風(fēng)險分析與預(yù)警以及預(yù)警管理等能力,快速發(fā)現(xiàn)風(fēng)險。
· ? ? ? 應(yīng)急響應(yīng)模塊規(guī)定了企業(yè)縮短故障時間、快速恢復(fù)故障應(yīng)該具備的響應(yīng)和快恢能力,包括容災(zāi)演練、切流、限流、降級、重啟、攔截、擴容等能力。
總結(jié)
系統(tǒng)安全受內(nèi)部和外部雙重影響,在防止企業(yè)系統(tǒng)受外部影響上,信息安全目前相關(guān)理論研究和產(chǎn)品建設(shè)已經(jīng)較為完善。當(dāng)前系統(tǒng)故障更多原因是由于企業(yè)內(nèi)部問題導(dǎo)致,安全工程成為降低系統(tǒng)故障體系化解決方案。
隨著企業(yè)上云和用云深入,阿里云混合云安全工程為企業(yè)上好云、安全用云提供了全套解決方案, 內(nèi)容包括:安全工程標(biāo)準(zhǔn)培訓(xùn)、企業(yè)安全工程標(biāo)準(zhǔn)評測認證(聯(lián)合信通院)、安全工程產(chǎn)品體系(運維風(fēng)控等)、業(yè)務(wù)穩(wěn)定性咨詢等產(chǎn)品與服務(wù), 提升云上業(yè)務(wù)的安全可控。
?
阿里云混合云(Apsara Stack)建管用一體化的混合云平臺,助力企業(yè)級客戶全棧建云、智能管云、極致用云,致力于成為 #政企數(shù)智創(chuàng)新的同行者#!
更多資訊歡迎訪問【阿里云混合云】官網(wǎng)或加入釘群(32450454)交流。
總結(jié)
以上是生活随笔為你收集整理的Apsara Stack 技术百科 | 数字化业务系统安全工程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用QuartusII 操作操作1位全加法
- 下一篇: 英语词典软件