华为OPS维护助手
? ? 幾年前,學習網絡的時候,有一個考點是思科的EEM,當時對這個EEM有很強烈的興趣。時至今日,近期的現網業務也有類似的需求。研究華為產品手冊發現,華為的OPS維護助手能完成同樣的需求。
Cisco EEM
? ? EEM是Cisco IOS的嵌入式事件管理器(Embeded Event Manager)的縮寫,它提供了一種分布式的、可擴展的、可根據用戶需求而靈活定制的,用于進行事件監控和故障恢復的機制。利用這種機制,當被監控的事件發生,或者是達到某個門限值時,EEM提供了進行消息報告以及采取相應動作的能力。
? ? 一個完整的EEM的操作被稱作EEM Policy(EEM 策略),EEM Policy包括:定義監控的事件以及當被監控事件發生時所要執行的動作。
? ? 隨著客戶的網絡規模日益龐大,單純依靠現有網管架構下網管服務器與網絡設備之間的主從模式,很難解決網絡管理的成本、復雜性、擴展性以及出現故障時處理的及時性等等這些越來越有挑戰性的問題。因此未來的網絡管理需求要求網絡設備本身具有更高的智能,能夠根據各種不同的預定條件或網管人員的要求對網絡設備本身進行不同的操作,減少網管人員的維護壓力、提高對網絡故障的響應速度。?
? ? Cisco的EEM,從根本上改變了網絡設備的管理方式,使得網絡設備由現有網絡管理架構中的被動報告者和應答者,轉變成為積極主動的參與者。讓網絡設備本身變得更為智能、靈活,幫助網絡的運維人員更輕松、更及時、更準確地進行網絡優化和故障排除。未來EEM的發展將繼續延伸網絡設備的智能,實現構建真正“自診斷、自愈合”的網絡的目標。
? ? EEM的整個架構由:EEM Server、Event Publisher(也稱作:Event Detector)和Event Subscribers (EEM Policy)三個部分組成。其中,Event Publisher 負責監控和分析事件,并且在事件發生時,負責向EEM Server 通告事件的發生。而后,EEM Server觸發EEM Policy 基于當前的系統狀態以及所配置的具體動作,例如:執行IOS的命令行、發送SNMP Trap、發起主備引擎切換、產生Syslog信息等等,實施相應的恢復措施。
? ? 目前在Cisco的絕大多數路由交換產品平臺上都提供了EEM的功能。
示例:
| 1 2 3 4 5 6 7 8 | event?manager?applet?track_pw318_frommaster? event?syslog?pattern?"Vl318?Grp?1?state?Master"?##?設定需要監控的Syslog中的消息內容? action?1.0?cli?command?"en"????##?一旦檢測到特定模式的消息出現,則開始執行一系列命令? action?2.0?cli?command?"config?ter"?????? action?3.0?cli?command?"no?ps?pwc318"? action?4.0?cli?command?"int?gi?4/14"? action?4.1?cli?command?"shut"? action?4.2?cli?command?"no?shut" |
HuaWei OPS
? ? 開放可編程系統OPS(Open Programmability System)是指設備通過提供統一的應用程序接口RESTful API(Representational State Transfer Application Programming Interface)來開放系統,使得系統具備可編程能力,可以運行第三方應用程序。
? ? OPS允許用戶或第三方開發商利用系統提供的基礎功能,通過自主編程,開發和部署自己的網絡應用程序,從而迅速地實現業務功能擴展和設備的智能化管理,降低運維成本和操作的復雜度。
? ? 傳統的網絡設備只能提供有限的功能和已知的服務,不具有動態性和靈活性,而隨著網絡的迅猛發展和不斷普及,多樣化、差異化的需求難以得到滿足。部分用戶要求設備提供不同層次的開放性,便于開發一些自定義的功能,部署一些私有的管理策略,實現自動化運維等功能,以降低管理成本。
? ? 為此,華為公司推出OPS,提供網絡設備的開放可編程能力。OPS允許用戶或第三方開發商利用系統開放的RESTful API,開發和部署自己的網絡管理策略,從而迅速地實現業務功能擴展、自動部署和設備的智能化管理,降低運維成本和操作的復雜度。通過配置OPS,實現設備更加靈活、智能的管理及維護。
示例:
| 1 2 3 4 5 6 7 8 9 | [~DeviceA]?ops [~DeviceA-ops]?assistant?collect_health [*DeviceA-ops-assistant-collect_health]?condition?timer?cron?0?1?*?*?*?* [*DeviceA-ops-assistant-collect_health]?execute?1?command?display?device?>?health.txt [*DeviceA-ops-assistant-collect_health]?execute?1.5?command?display?health?>>?health.txt [*DeviceA-ops-assistant-collect_health]?execute?2?command?display?ip?routing-table?>>?health.txt [*DeviceA-ops-assistant-collect_health]?execute?2.5?command?display?lldp?neighbor?brief?>>?health.txt [*DeviceA-ops-assistant-collect_health]?execute?3?command?tftp?10.2.1.1?put?health.txt [*DeviceA-ops-assistant-collect_health]?commit |
? ? 在我們的業務場景中,OPS的主要作用是智能化業務的切換,而感知業務質量的方式主要是通過NQA功能。在NQA中,我們定義了對端的監測點以及下一跳路徑,通過ICMP包成功率反饋NQA是否failed。OPS中使用condition關聯NQA執行相應的操作。
命令如下:
| 1 2 3 4 5 6 7 | ops ?assistant?test ??execute?1?command?sys ??execute?1.5?command?interface?gig?1/0/1 ??execute?2?command?shutdown ??execute?3?command?commit ??condition?event?feature?nqa?name?TEST_FAILED?TestName?eq?tcp |
本文轉自Grodd51CTO博客,原文鏈接:http://blog.51cto.com/juispan/1964331,如需轉載請自行聯系原作者
總結
- 上一篇: CSDN 技术社区
- 下一篇: MDN Web Docs