由中行IBM大型机宕机谈银行系统运维
12月15日中行IBM大型機宕機,系統沒有第一時間切換到熱備或者異地容災上,直接影響中行的信用卡支付相關業務,直到4小時之后才恢復服務。由于銀行業務的特殊性,對于系統的可用性要求極高,就此事件,我們采訪了興業銀行系統分析師周偉然、支付寶應用運維架構師陸惟凱(花名:近南),請他們談一下對于銀行系統運維的一些看法。
\u0026#xD;\nInfoQ:作為一名銀行金融行業的IT技術專家,您認為本次中行IBM大型機宕機的體現出哪些問題和教訓?
\u0026#xD;\n\u0026#xD;\n陸惟凱:主要的問題是災備或大型故障的演練與決策,對于硬件或者機房故障的大型故障,需要有經過驗證演練的切換方案來保證切換風險可控。對于故障決策來說是否啟動災備切換是個艱難的決定,不過確實也要能夠下決策去切換。其實一切的根源還是在切換方案是否足夠可靠、是否經過演練。只要切換風險可控,切換得決策其實不會太糾結。
\u0026#xD;\n周偉然:對于本次中行事件,具體原因不了解得情況下不好直接評論。但所謂相關金融系統的運維是一個復雜的系統功能,不能單純的從main frame的穩定性一概而論。設備運行的穩定性也只是整體系統穩定性的很小部分。除了環境保障中包含的網絡環境、硬件資源、存儲設備、操作系統數據庫等基礎軟件環境以外,應用運行、系統間互操作等事件都可能產生重大影響。而風險是無法完全避免的,這才顯示的出災難備份和應急預案的重要性,最大程度降低風險暴露后的影響是驗證應急體系有效性的重要指標。
\u0026#xD;\n\u0026#xD;\nInfoQ:ITIL流程是否在您所在的組織中使用?對于類似事故,ITIL流程的處理應該是什么樣子?
\u0026#xD;\n\u0026#xD;\n陸惟凱:使用,不過不是標準的ITIL流程。我們有一個應急響應的Team在處理相關決策以及應急事務。對于特別重大的問題會在應急響應TEAM內進行決策。
\u0026#xD;\n周偉然:我行使用ITIL。無論是ITIL還是各級監管機構,乃是內部風險機構,對于銀行應急處理的流程均有嚴格的要求,基本上是系統分類,根據不同等級重要性提出不同的風險要求。對于重要系統,需要建設完備的災備體系,建立完善的應急預案 并且需要確保災備和應急預案的有效性。對此,監管和內部審計通過演練進行確認。 所謂的演練非模擬實際環境的演練,而是在實際的生產環境進行的模擬災難,各機構對演練的頻度和內容均有嚴格的要求,并且重大演練時,監管官員將進行現場檢查 通過各銀行每年發出的停業公告可以看到這些演練信息。
\u0026#xD;\n\u0026#xD;\nInfoQ:在你們的系統中,“桌面模擬演練”和“Call Tree演練”是如何進行的?
\u0026#xD;\n\u0026#xD;\n陸惟凱:模擬演練比較少吧。方案定了之后模擬其實都是沒問題的,定期的review是需要的。演練相關主要是定期組織運維的容災演練與應急演練以及網購節(雙11大促)之前的演練。
\u0026#xD;\n周偉然:據我所知,在股份制銀行或規模以上銀行,重要系統演練多以實際生產系統的方式進行,模擬演練主要用于系統正式上線之前的驗證,在實際生產運行時并不采用也不符合監管要求。所有實際生產系統,即實際生產后臺、實際渠道系統,但限定范圍,例如,在演練時,可能關閉網銀入口,使用戶無法直接登錄,控制演練本身造成的二次風險。
\u0026#xD;\n\u0026#xD;\nInfoQ: 相對互聯網行業來說,銀行金融行業的IT運維人員的素質和技能具體有哪些不同?
\u0026#xD;\n\u0026#xD;\n陸惟凱:個人感覺是比較接近的。可能是我在支付寶工作的緣故,IT相關企業的運維人員根據企業的性質不同(門戶,電商,游戲,SNS)等會有一些各自有特色的容災以及流控方案。所以需要相關的運維人員更多的了解前端業務,能夠根據不同的故障情況進行不同的處理。(例進行功能的刪減控制,流量開關,流量切換等)。另外IT企業運維人員遇到的外部故障會更多一些比方外部攻擊,或運營商,或應用異常出現的故障。。另外傳統IT業的系統更新頻率會比金融業快上很多。相關應用發布帶來的一些故障處理也會對運維人員提出更高的需求。傳統金融行業的容災方案相對來說就比較單純一些。在數據備份方面IT企業根據企業特性不同,數據備份的重要性也會不同。金融行業對可用率以及數據備份的要求會更高。
\u0026#xD;\n周偉然:由于不太了解互聯網的運維素質所以不好比較。但對于金融行業運維,制度性準確性和規范性是很重要的。由于銀行設計大量資金和重要隱私,在制度規范上有著較為嚴格的規定,例如業務、研發人員與生產系統嚴格分離、生產數據完全無法接觸的到、需要檢查分析時需要通過嚴格的審批流程。在研發軟件下發生產也必須嚴格進行內容審查和審批,操作步驟必須清晰描寫,而對于運維把控的是對于審批結果的執行,精確執行審批結果而不能自行改動丁點,而且執行過程被記錄,可被審計 在風險發生時,則應依照預案進行各項操作。運維人員對于應急預案的制定的維護,需要基于大量運維經驗,并且通過不斷優化驗證的。
\u0026#xD;\n\u0026#xD;\nInfoQ:能否介紹下:在您所在的組織中,關鍵業務系統的備份是怎么做的?
\u0026#xD;\n\u0026#xD;\n陸惟凱:同城容災加異地災備吧..同城容災包括機房內單點容災(備份)以及機房間的相互備份。
\u0026#xD;\n周偉然:備份方式對于重要系統均需多方面考慮,例如某關鍵系統,首先在運行時就使用應用集群的方式確保可用性,通訊接入采用端口和地址復用進行多重備份。運行體系基本需要確保無單點故障,即單一功能點在2個或以上并行運行的節點。其他設備采用熱備或冷備方式。該數據庫備份基于數據庫引擎和高端引擎進行遠程災備同步的功能,為單數據源熱備份,數據的保存備份對于非監管要求數據,根據內部管理規定制定備份保存時間,備份至專用數據平臺、對于監管要求的數據,在一定時間內在線保存至數據平臺,長時間后轉磁帶長期保存。
\u0026#xD;\n\u0026#xD;\nInfoQ:在網友評論中看到一句話:“最關鍵的是一般都是只有設備容災,沒有人員組織架構的容災。”請問您覺得“人員組織架構的容災”應該如何理解?
\u0026#xD;\n\u0026#xD;\n陸惟凱:人員組織架構的容災分兩部分來看,一部分是操作以及一線的處理人員的備份,這塊要保證相關的運維的操作技能與權限到位,在第一聯系人沒有聯系到的情況下可以聯系第二聯系人來進行處理。
\u0026#xD;\n第二是決策人員的備份對于決策的人員存在聯系不上的情況下,可以聯系備份決策人員來進行決策。
\u0026#xD;\n當然這里的人員組織架構容災基本還沒有考慮到一個異地或者其他的成分,如果遇到毀天滅地型的地震或者更極端的災難的時候,可能會缺乏異地的人手來處理問題。。
\u0026#xD;\n周偉然:人員組織的架構在銀行來說有著明確的規定。首先對于每個系統對應的負責人員需要報送管理,并且做到A、B角等多角定義,在系統故障和重大事件保障時均遵循流程對應具體人員。日常工作時,大家對ab角等也有一定的注意,例如某集體全體不宜同一趟飛機出行等來降低風險。
\u0026#xD;\n\u0026#xD;\nInfoQ:能否介紹一些國外銀行金融企業對類似問題和事故的處理經驗?
\u0026#xD;\n\u0026#xD;\n陸惟凱:沒有相關的經驗。
\u0026#xD;\n周偉然:處理經驗其實之上各題中均有提到,即功夫在平時。好的應急預案和備份需要大量前期工作和定期優化維護,并且驗證,每次處理之后通過仔細的分析、審計、故障報告等方式探討不足,不斷地優化和改進。
\u0026#xD;\n總結
以上是生活随笔為你收集整理的由中行IBM大型机宕机谈银行系统运维的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一根均线选股法
- 下一篇: 道恩股份主营业务是什么