两次服务器灾难事故的反思
????假期真快,這都是第5天了,開始整合服務器版本的linux.其實可不必使用ubuntu service,使用Cent OS系統已經幾年了,用著很穩定,也順手;但近期兩次沒有必要的,人為原因的宕機,不得不重新考慮現實情況,如何建立正規的項目管理流程.
??? 本來8臺服務器好好地跑著,沒有什么問題;開發隊伍中,有人抱怨不給root密碼,不好部署程序,我管理上忙些,就把root密碼給出來了,這下子"災難"來了,兩個哥們動了系統配置文件,本意可能是實現開機啟動程序,但在SSH下,直接拷貝了網頁上的內容,粘貼進去了,事后我相當無語了.
??? 最后更讓我無語的是,系統故障后,沒有第一時間報告,私自改了N多東西,最嚴重后果,這臺客戶端服務器宕機,造成無法給客戶演示系統.我是相當的無語,考慮不是故意的,加上這件事,在項目管理流程上出了問題,沒有追責.
??? 第二次的系統故障,更讓我無語了,編譯服務器直接死掉,究其原因,有人想升級編譯器的版本,導致系統死掉,話說回來:就算升級成功了,編譯器版本和工程服務器上的版本不一致,程序也不能運行呀.不懂又在瞎搞,是一種工作態度問題.
??? 這次事件,更加顯露了項目管理上的嚴重漏洞.反思良久,更改掉了所有系統的密碼,規定,所有程序模塊只要在開發機穩定運行,就算成功,往工程服務器上部署時,由專業人員統一部署與管理.公司研發隊伍初創,還不能和大公司的研發管理相比.
??? 項目開發中,所有程序員的開發機使用ubuntu 14.04桌面版,為了更好適應這個現實情況,把部分服務器系統換成ubuntu server,主要是降低開發難度,建立一個完整的開發生態鏈:利用ubuntu簡單,易用的特點,整合資源,建立一個上手快的開發環境.
??? 更換了服務器系統后,由于些許的不同,必然面臨一些新問題,程序打包,系統的克隆,這又減慢了項目的開發進度.
/*****************************************************************************************/
????由此及彼,其它方面不好的地方一并列出:
??? 管理流程不好,很致命的.再加上剛初建的研發隊伍,人員之間需要磨合,項目風險加大了很多,不改革就會死掉,今年這個小長假,讓我時間反思項目上的種種問題:
? ? 1.致命拖沓的采購,導致硬件不能生產調試,無法和軟件聯調.
? ? 2.軟件人員的自我修養與業務技能低下問題.
? ? 3.項目總體進度緩慢的問題.
? ? 4.最致命的是公司不能按時發工資,人員積極性不高的問題.
? ? 5.公司過多申請項目材料整理,導致無效工作的問題.
? ? 6.整個公司對研發部門的重要性全然不知,基本上以做貿易的思想管理公司.??
?? 能解決的都是技術問題,其它公司層面的問題是個人無法解決的,人員離職率必然較大,種種原因說明,項目已經很危險了.做為一個項目的管理者,好提前預防這個風險,全力思考中.
???
轉載于:https://blog.51cto.com/qtlinux/1560766
總結
以上是生活随笔為你收集整理的两次服务器灾难事故的反思的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 几个常用的eclipse快捷键
- 下一篇: MySQL数据库备份和还原的常用命令小结