运维的基本知识点及分类工作
目錄:
- 什么是Linux運維
- 運維的分類
- 基礎運維的常見工作
- Linux運維工作發展過程
- Linux運維日常使用軟件和技能
- 運維工程師要掌握的技能
什么是Linux運維
- 運維是指大型組織已經建立好的網絡軟硬件的維護,就是要保證業務上的上線與運作的正常
- 在運轉的過程中,對他進行維護,集合了網絡、系統、數據庫、開發、安全、監控于一身的技術
- 運維又包括DBA運維,網站運維,虛擬化運維,監控運維,游戲運維等等
運維的分類
系統運維(SYS):
1. 負責IDC、網絡、CDN和基礎服務的建設(LVS、NTP、DNS);
2. 負責資產管理,服務器選型、交付和維修,網絡建設、LVS負載均衡和SNAT建設
系統運維的工作職責
'''1.IDC數據中心建設''' # 收集業務需求,預估未來數據中心的發展規模 # 骨干網的分布,數據中心建筑,以及Internet接入 # 網絡攻擊防御能力、擴容能力、空間預留、外接專線能力、現場服務支撐能力等方面評估選型數據中心'''2.網絡建設 ''' # 設計及規劃生產網絡架構 # 包括:數據中心網絡架構、傳輸網架構、CDN網絡架構等,以及網絡調優等日常運維工作。'''3.LVS 負載均衡 ''' # LVS 是整個站點架構中的流量入口,根據網絡規模和業務需求,構建負載均衡集群。 # 完成網絡與業務服務器的銜接,提供高性能、高可用的負載調度能力,以及統一的網絡層防攻擊能力。'''4.CDN 規劃和建設 ''' # CDN 工作劃分為第三方和自建兩部分 # 根據業務發展趨勢,規劃CDN新節點建設布局 # 完善CDN業務及監控,保障CDN 系統穩定、高效運行 # 分析業務加速頻道的文件特性和數量,制定最優的加速策略和資源匹配 # 負責用戶劫持等CDN日常故障排查工作'''5.服務器選型、交付和維護 ''' # 負責服務器的測試選型,包含服務器整機、部件的基礎性測試和業務測試,降低整機功率,提升機架部署密度等'''6.OS、內核選型和 OS 相關維護工作 ''' # 負責整體平臺的 OS 選型、定制和內核優化,以及 Patch 的更新和內部版本發布 # 建立基礎的YUM包管理和分發中心,提供常用包版本庫 # 跟進日常各類 OS 相關故障 # 針對不同的業務類型,提供定向的優化支持'''7.資產管理 CMDB ''' # 記錄和管理運維相關的基礎物理信息,包括: 數據中心、網絡、機柜、服務器、ACL、IP等各種資源信息 # 制定有效的流程,確保信息的準確性; # 開放API接口,為自動化運維提供數據支持'''8.基礎服務建設 ''' # 業務對 DNS、NTP、SYSLOG 等基礎服務的依賴非常高,需要設計高可用架構避免單點,提供穩定的基礎服務應用運維(SRE):
應用運維負責線上服務的變更、服務狀態監控、服務容災和數據備份等工作,對服務進行例行排查、故障應急處理等工作
工作職責如下:設計評審、服務管理、資源管理、例行檢查、預案管理、數據備份。
業務運維工作細則
1)監控線上的服務質量
2)響應異常/處理突發故障
3)在線發布/升級產品
4)和相應產品線的研發和測試協調處理產品問題
應用運維的工作職責
'''1.設計評審 ''' # 在產品研發階段,參與產品設計評審,從運維的角度提出評審意見,使服務滿足運維準入的高可用要求。'''2.服務管理 ''' # 負責制定線上業務升級變更及回滾方案,并進行變更實施 # 能夠發現服務上的缺陷,及時通報并推進解決 # 完善監控內容,提高報警準確度 # 在線上服務出現故障時,第一時間響應'''3.資源管理 ''' # 對各服務的服務器資產進行管理,梳理服務器資源狀況、數據中心分布情況、網絡專線及帶寬情況 # 能夠合理使用服務器資源,根據不同服務的需求,分配不同配置的服務器,確保服務器資源的充分利用'''4.例行檢查 ''' # 根據制定的服務排查點,對服務進行定期檢查 # 對排查過程中發現的問題,及時進行追查,排除可能存在的隱患'''5.預案管理 ''' 確定服務所需的各項監控、系統指標的閾值或臨界點,以及出現該情況后的處理預案。 建立和更新服務預案文檔,并根據日常故障情況不斷補充完善,提高預案完備性。'''6.數據備份 ''' # 制定數據備份策略,按規范進行數據備份工作。 # 保證數據備份的可用性和完整性,定期開展數據恢復性測試。運維開發
1. 是給應用運維開發運維工具和運維平臺的
2. 主要包含的平臺:工單系統、CMDB、監控系統、ELK日志系統、CI/CD、LDAP、FAQ、培訓系統、OpenStack平臺
數據庫運維(DBA):
1. 數據庫運維負責數據存儲方案設計、數據庫表設計、索引設計和SQL優化,
2. 對數據庫進行變更、監控、備份、高可用設計等工作,詳細的工作內容如下
3. 設計評審、容量規劃、數據備份與災備、數據庫監控、數據庫安全、數據庫高可用和性能優化
4. 自動化系統建設、運維研發、運維平臺、監控系統、自動化部署系統
運維安全(SEC):
1. 運維安全負責網絡、系統和業務等方面的安全加固工作
2. 進行常規的安全掃描、滲透測試,進行安全工具和系統研發以及安全事件應急處理
3. 工作內容如下:安全制度建立、安全培訓、風險評估、安全建設、安全合規、應急響應。
基礎運維的常見工作
服務監控技術:
包括監控平臺的研發、應用,服務監控準確性、實時性、全面性的保障
服務故障管理:
包括服務的故障預案設計,預案的自動化執行,故障的總結并反饋到產品/系統的設計層面進行優化以提高產品的穩定性
服務容量管理:
測量服務的容量,規劃服務的機房建設,擴容、遷移等工作
服務性能優化:
從各個方向,包括網絡優化、操作系統優化、應用優化、客戶端優化等,提高服務的性能和響應速度,改善用戶體驗
服務全局流量調度:
接入服務的流量,根據容量和服務狀態在各個機房間分配流量
服務安全保障:
包括服務的訪問安全、防攻擊、權限控制等
服務自動發布部署:
部署平臺/工具的研發,及平臺/工具的使用,做到安全、高效的發布服務
服務集群管理:
包括服務的服務器管理、大規模集群管理等
服務成本優化:
盡可能降低服務運行使用的資源,降低服務運行成本
數據庫管理(DBA):
通過設計、開發和管理高性能數據庫集群,使數據庫服務更穩定、更高效、更易于管理。
平臺化的開發:
類docker等平臺的開發管理,及服務接入技術
Linux運維工作發展過程
運維的發展
Linux運維日常使用軟件和技能
運維工程師使用的運維平臺和工具
- Web服務器:apache、tomcat、nginx
- 監控:prometheus、zabbix、openfalcon、nagios、cacti
- 自動部署:ansible、saltstack、puttet
- 負載均衡:keepalive、lvs、haproxy、nginx
- 備份工具:rsync、wget
- 問題追查:netstat、top、tcpdump、last
- 容器:docker、k8s、docker-compose、swarm
- 安全:kerberos、selinux、acl、iptables
- 虛擬化:openstack、xen、kvm
運維工程師要掌握的技能
總結
以上是生活随笔為你收集整理的运维的基本知识点及分类工作的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HTTP协议SSL协议HTTPS协议
- 下一篇: DNS_ARP_DHCP协议