【转】服务器维护工程师悲惨的一个星期
生活随笔
收集整理的這篇文章主要介紹了
【转】服务器维护工程师悲惨的一个星期
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
? 2012.5.11 17點40分,接到**科技部的電話,告訴我IBMX346的服務器同時壞了2塊SCSI146G硬盤,現在系統進不去了.問我周六周日能否去修復,和我的領導溝通后明確要周一才能拿到配件×××.
周一11點才拿到2塊SCSI 146G硬盤,匆忙趕去該行,還好不要數據恢復,估計不是很重要的業務,吃完中飯之后,開始重新安裝系統,6塊146G硬盤,5塊做RAID 5,還有1塊做熱備,這種服務器應該有快10年了,還在繼續使用,也不知道領導是怎么想的,就不怕系統硬件出問題啊? 到下午2點左右,系統也弄好了,剩下的事情就可以交給他們做了.我正想回公司,匆忙有人跑來告訴我,又有一臺服務器壞了,我的天,今天是怎么回事啊. 跑過去一看,又是一臺IBMX346服務器,簡單了解了一下情況,說是在KVM操作的時候,系統沒有反應了,好像死機了,然后就重起了,結果重起之后,發現找不到硬盤了,再仔細一看,發現RAID卡找不到了.這個是生產系統,隨時要用的,讓我趕緊想想辦法先弄好,還和我說這個沒有備份的,就只有這臺生產機.和該行科技部的人員說,要不從其它同型號不用的服務器上拆塊RAID卡接到這臺服務器上,問我要多少時間,我說1個小時差不多了,他們打個電話問了其它技術人員,詢問把硬盤拆到其它同型號服務器上的可行性,技術上說是行的,只要手動ONLINE就行了. 他們馬上發通知這臺服務器出故障了,我斷電后,拆開這臺壞的服務器,發現RAID卡上電池都鼓包了,RAID帶電池那端都變形了.從同型號的機子上拆了一塊卡過來,接上PS/2的鍵盤鼠標后,用SERVERRAID 8.4引導,結果出現對話框,好幾個選項,選擇F4從磁盤引導,F10什么都不改變,結果鍵盤怎么按都沒有反應,當時以為是鍵盤有問題,結果壞了一塊鍵盤還是一樣.這個辦法不行,只好把6塊硬盤按順序標好,接到同型號的不用服務器上(4塊73G硬盤,做RAID 5),裝上光盤,引導之后,發現有4塊硬盤OFFLINE,一個邏輯盤狀態失敗,F10什么都不改變,光盤引導進入之后,發現0,1,2,3,都是OFFLINE,還有4,5兩塊是REDY狀態,想想剛才的電話交流,我也認為引導之后手動ONLINE就可以了. 悲劇就從這個時候開始了,他們給我的是誤導我的提示.我想想6塊盤做RAID 5,已經有2塊REDY,再弄3塊就可以引導系統了,于是手動把前面0,1,2三塊盤設置成ONLINE,奇怪了,為什么第3塊不能ONLINE呢?當時也沒有多想,直接重起.結果系統沒有起來,直接提示錯誤的操作系統,我一看壞事了,光盤引導之后,進入后發現前面3塊在做RAID5,已經到了1%,馬上關機,這時候科技部的人也有些擔心了,問我公司還有沒有人會弄,打個電話問問,我還是不死心,在試著操作3號盤,顯示在rebuilding,我的天,這個時候一子下明白剛才手動ONLINE是做什么了.這個時候經理打電話過來了,問我怎么回事了,估計已經有人打電話給經理了,我把大概情況說了一下,經理就說我了,什么不好操作,去動他的硬盤,我只好說以前他們都要求我幫他們操作過很多次了,從這臺服務器幾塊盤接到其它服務器上直接導入RAID就行了,這次是意外失手.經理說我:常在河邊走,哪有不濕鞋的.一會帶個工程師會過來看看.該行的科技人員問我數據會不會丟失,我用那種不是很肯定的語氣和她說,應該不會的.她在那里雙手祈禱,千萬不要丟失啊. 關機之后,我理了一下思緒,想想領導所說的話,如果你提前打電話給我,告訴我要移動硬盤,我肯定不會同意你這么操作的,拆硬盤到其它服務器會有風險的,還是高風險.唉,這種事情怎么說呢,如果操作的話,你好我好大家都好,如果失敗了,責任就全部都是公司的,剛才問過相關人員了,這個還好不是非常重要的生產系統,如果是生產系統,那就問題大了,不僅行里的人員會受處分,領導也會有麻煩的.相關責任人員弄不好要受刑事責任的.越想越覺得害怕啊.現在真是的如坐針氈啊,就想經理他們早點到. 經理和工程師很快到了,我和工程師簡單說了一下過程,他說本來你這樣操作風險就是很高的,不過你只要操作小心,一般也沒有什么大的問題,你現在的問題是屬于2次破壞,你現在的陣列是從后來RAID卡拷貝過來的,這塊卡原來是4塊做RAID5,不是這6塊盤自帶的陣列,如果你選擇從6塊硬盤拷貝到陣列卡,那就沒有什么問題.如果你把后來那塊的配置信息全部清干凈了,相當于一塊新盤,就只能讀6塊盤導入陣列,這就沒有問題,現在看看原先這塊卡的陣列信息在不在,如果不在就只有數據恢復了.結果把單把6號盤接到原來的卡上,讀取陣列信息失敗. 這個時候已經晚上10多點了,從行里出來,還下著雨,心情不爽啊.坐車回車,到家11點多了.迷迷糊糊中感覺沒睡幾個小時就天亮了,第二天來到公司之后,網上搜索了一下數據恢復,把情況和他們溝通了一下,很多數據恢復的人在線都告訴我,數據可以95%恢復,不過價格也不便宜,3000吧,有的更夸張,北京的工程師說上門可以,飛機實報,3000保密費,5000數據恢復.這讓我又看到了希望.趕緊從行里把6塊盤拿出來了,拿到指定的數據恢復點.簡單和數據恢復的工程師溝通了一下,說是先要把6塊盤按順序讀到文件里,然后他們在分析.這6塊盤從下午3點開始弄,一塊盤差不多要80分鐘,最后一塊盤物理上有些問題,讀了很長時間,到晚上12點還沒有讀好,實在受不了,就讓它自己讀吧,各自回家,到家都2點了,洗洗睡了,這期間行里的人也急了,到現場詢問情況. 周三,正常時間到了數據恢復那里,問工程師,能有多少把握,他說需要分析,要我耐心等,大概到了10點的時候,行里的人也來了,這個時候,情況有了好的轉變,數據都分析出來了,C盤488個G,D盤195個G,里面大部分的東西都在,行里的人急著要SQL的數據庫文件,先拷了這些東西回去.剩下的東西,我準備先拷D盤的東西,到晚上8點的時候,D盤拷完,剩下的C盤拷1個晚上,明天應該差不多了吧.周四過去一看,才拷了10%,暈啊,和行里再溝通了一下,說是SQL的東西全部要,然后下午行里又來人了,把需要的東西都拷走,基本到下班,所需要的東西都弄出來了.為了安全考慮,6個鏡像文件沒有刪除,都行里確認沒有問題了,再刪數據文件. 只到此時,好不容易終于松了一口氣,幾天來的緊張氣氛在這一刻終于釋放.看看天空,覺得挺藍,心情不錯,看看其它人都覺得親切啊.都說很多時候都是不經一事,不長一智.把它記錄下來,提醒自己時刻小心,千萬不可大意,沒有十足的把握不要操作,不然要創出大禍。 此文轉自,以儆效尤::http://www.aixchina.net/home/space.php?uid=48037&do=blog&id=31181轉載于:https://blog.51cto.com/qq163/915021
總結
以上是生活随笔為你收集整理的【转】服务器维护工程师悲惨的一个星期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DataTables获取指定元素的行数据
- 下一篇: 室内定位 - 资料收集