2021 阿里云容器服务年度盘点:企业级容器应用变化和技术趋势观察
作者:溪洋
在云原生浪潮的推動下,容器和 Kubernetes 技術和應用發展迅猛。最近,云原生計算基金會 CNCF 發布了與 SlashData 聯手撰寫的 最新版《云原生開發現狀報告》,該報告顯示,“Kubernetes 在過去的 12 個月取得了令人矚目的增長——今天,全球共有 560 萬開發人員在使用 Kubernetes。對于那些擁有 500 多名員工的大型組織而言,Kubernetes 和容器的采用率猛增,這意味著 Kubernetes 已經完全滿足企業的需求。很多時候,開發人員甚至在沒有意識到 Kubernetes 的情況下就在使用它。”
云原生已經成為數字經濟技術的創新基石,與此同時,容器正在成為企業使用云的新界面,為企業的計算基礎設施、應用架構、組織文化和研發流程帶來新一輪變革。最近,阿里云容器服務團隊幾位核心成員在一次訪談中,分享了他們對企業級容器應用市場的變化和 2022 年容器技術重點發展方向的趨勢觀察。本文希望結合 2021 年阿里云云原生容器服務的重點事件,幫助大家梳理云原生容器領域的核心發展脈絡,把握技術趨勢走向。
盤點:2021 阿里云云原生容器服務大事記
1. 全面升級,讓云的邊界拓展至企業需要的每個場景
2021 年 9 月,阿里云容器服務宣布全面升級為 ACK Anywhere,并發布 ACK 發行版、ACK 敏捷版、ACK ONE 分布式云容器平臺;以及面向異構計算支撐、資源調度、網絡、云原生 AI、智能化運維、云原生制品分發等六大方向的優化升級。升級后的 ACK Anywhere 擁有“一致體驗、彈性算力、能力下沉、簡化容災”四大核心能力,使企業在任何業務場景下使用容器服務時,都能實現統一集群管理、統一資源調度、統一數據容災和統一應用交付。
2. 挖掘潛能,支撐新一代容器架構升級
隨著企業對容器的擁抱更加積極,對容器核心技術的啟動效率、資源開銷、調度效率都有了更高的要求,阿里云容器團隊也支持了新一代的容器架構升級,通過對容器、裸金屬、操作系統等全棧優化,持續挖掘容器的潛能。
-
高效調度:全新升級 Cybernetes 調度器,支持對多架構神龍的 NUMA 負載感知、拓撲調度和細粒度的資源隔離和混部,提升應用性能 30%。此外,在調度器上做了大量端到端優化,在 1000 節點規模集群中,可以提供 20000Pods/min 以上的調度速度,確保在線服務和離線任務都能高效地運行在 Kubernetes 上;
-
高性能容器網絡:最新一代的阿里云容器網絡 Terway 3.0,一方面通過神龍芯片 offload 虛擬化網絡開銷,一方面在 OS 內核中通過 eBPF 實現容器 Service 轉發和網絡策略,真正實現零損耗,高性能。
-
容器優化 OS:面向容器場景,推出輕量、快速、安全、鏡像原子管理的容器優化操作系統 LifseaOS,相比傳統操作系統軟件包數量減少 60%,鏡像大小減少 70%,OS 首次啟動從傳統 OS 的 1min 以上下降到了 2s 左右。支持鏡像只讀和 ostree 技術,將 OS 鏡像版本化管理,更新操作系統上的軟件包、或者固化的配置時,以整個鏡像為粒度進行更新。
-
高密部署極致彈性:基于阿里云安全沙箱容器 2.0,優化沙箱容器內的資源開銷,最小可達 30M 左右,實現了在單一物理機上的 2000 實例的高密服務能力。同時通過管控鏈路的縮短以及組件的精簡,并輔以對沙箱內存分配流程、host cgroup 管理流程和 IO 鏈路的優化,實現了 Serverless 場景的 6 秒 3000 彈性容器實例的彈性能力。
3. 行業引領,技術成熟度與產品豐富度持續保持全球領先
-
4 月,Gartner 發布 2021 年容器競爭格局報告,阿里云成為國內唯一連續三年入選的中國企業,產品豐富度與成熟度持續保持全球領先水平。與往年相比,在 Kubernetes 支持、容器鏡像、Serverless 容器、服務網格等傳統維度基礎上,本次報告新增了集群部署形態和管控平面兩個維度,阿里云容器產品再次獲得國際高度認可。
-
5月,在 2021 云原生產業大會中,阿里云容器服務 ACK/Serverless Kubernetes (ASK + ECI)、阿里云服務網格 ASM 解決方案被中國信通院評為 2021 年度云原生技術創新解決方案/產品。
-
6 月,阿里云邊緣容器服務 ACK@Edge 通過信通院 33 項測評,獲得“2021 云邊協同能力認證”,基于 ACK@Edge 實現的申通快遞 IoT 云邊端架構,入選“2021 分布式云與云邊協同十佳實踐案例”。
-
7 月,在 2021 年可信云大會中,中國信通院公布了多項可信云認證的評估結果。其中申通基于阿里云邊緣容器 ACK@Edge 的 IoT 云邊端架構獲可信云用戶最佳實踐(申通-阿里云邊緣容器),包括 Serverless 容器服務 ASK 在內的無服務器架構、阿里云服務網格 ASM ?獲得專項首批先進級認證。
-
8 月,容器服務 ACK 作為阿里云上最優的容器執行環境、容器鏡像服務 ACR 作為最優的容器應用分發基礎設施,通過高效穩定、極致彈性、安全智能等能力的輸出 ,推動國際賽事以云原生的方式加速向數字化演進發展。
-
11 月,統一調度技術成功支持 2021 年雙 11 大促,實現了從容器調度到快上快下全流程的全面升級和優化,幫助阿里雙 11 大促成本降低 50%,生產環境常態化 CPU 利用率 65%。
-
12 月,阿里云邊緣云原生一體機通過信通院 67 項測評,獲得“邊緣一體機能力要求認證”。
4. 開源開放,攜生態伙伴構筑邊緣、AI、安全、多集群等場景下容器能力版圖
-
1 月,OpenYurt 憑借業界首個開源非侵入式邊緣計算云原生平臺的技術優勢,入選邊緣計算社區評選的“ 2020?年邊緣計算領域十大熱門開源項目”。
-
3 月,阿里云與 GitHub 聯合發布了快速部署至阿里云 ACK 的 GitHub Action Workflow。開發者無需自建部署維護 CI/CD 工具,基于開箱即用的 GitHub Action 及阿里云部署模板,即可實現 GitHub 代碼變更后,自動應用打包構建上傳阿里云容器鏡像服務 ACR、快速部署至阿里云容器服務 ACK 的流程。
-
4 月,由阿里云容器團隊與南京大學、Alluxio 社區聯合開源的開源的云原生數據編排和加速系統 Fluid 正式進入 CNCF Sandbox;9月,該項目在由中國信息通信研究院、中國通信標準化協會聯合主辦的“2021 OSCAR 開源產業大會”上榮獲“ OSCAR 尖峰開源項目和開源社區”獎。
-
5 月,在2021 阿里云開發者大會“云原生技術與最佳實踐”論壇現場,阿里云容器服務負責人易立、VMware 中國研發中心研發總監路廣聯合宣布達成雙方在“云原生邊緣計算”領域的技術戰略合作,希望未來依托開源社區力量,加速邊緣云原生生態系統的構建,共同推動云邊融合進程,幫助更多企業全面擁抱數智化轉型升級。
-
8 月,阿里云云原生團隊聯合 Linux 開源軟件學園在 GOTC 2021 “云原生人才發展”分論壇聯合發布“阿里云云原生人才計劃 2.0”,打造面向 CKA、ACA 專業人才雙認證能力的課程體系,推動業界培養云原生和 Kubernetes 專業人才。
-
9 月,由阿里云操作系統安全團隊和云原生容器平臺團隊共同發起的開源項目 Inclavare Containers 進入 CNCF Sandbox,這是業界首個面向機密計算場景的開源容器運行時項目。
-
11 月,距離正式宣布開源僅 3 個多月后,由來自阿里云容器團隊、螞蟻金服和紅帽的工程師共同發起并開源的多集群管理平臺 OpenClusterManagement(OCM)項目正式進入 CNCF Sandbox。
觀察:企業級容器化應用方式和需求變化
1. 容器化應用向邊緣業務場景延伸
隨著 5G、IoT、音視頻、直播、CDN 等行業和業務的發展,我們看到一個行業現象:企業開始將更多的算力和業務下沉到距離數據源或者終端用戶更近的地方,從而來獲得很好的響應時間和降低成本。CNCF 最新發布的《云原生開發現狀報告》顯示,在邊緣開發人員當中,Kubernetes 的采用率增加了 11 個百分點,達到 63%。邊緣開發人員使用容器的比例為 76%。
這明顯區別傳統的中心式的云計算模式 – 邊緣計算。邊緣計算作為云計算的延伸,將被廣泛應用于混合云/分布式云、IoT 等場景,它需要未來的基礎設施能夠去中心化、邊緣設施自治、以及強大的邊緣云端托管能力。云原生架構的新邊界 – “云邊端一體“的IT基礎設施開始出現在整個行業面前,而這也是企業對云原生技術、容器化應用在新場景落地的需求。
邊緣計算云原生架構和技術體系需要解決以下問題:云邊運維協同、彈性協同、網絡協同、邊緣 IoT 設備管理、輕量化、成本優化等。針對云邊端一體的新需求,在 2021 年,OpenYurt(CNCF Sandbox 項目)也發布了 0.4、0.5 等版本,持續優化邊緣容器的 IoT 設備管理、資源開銷、網絡協同等能力。
2. 以深度學習為代表的 AI 任務正在成為容器支撐的重要工作負載之一
隨著企進一步的大規模使用容器,企業內部使用容器的范圍也從開始的在線業務逐漸向 AI 大數據演進,對 GPU 等異構資源的管理和 AI 任務和作業的管理的需求也越來越多。同時,開發人員在考慮如何通過云原生技術,以統一架構、統一技術堆棧支撐更多類型的工作負載。以避免不同負載,使用不同架構和技術,帶來“煙囪”系統、重復投入和運維負擔。
在阿里云,我們提出“云原生 AI”的定義、技術全景圖和參考架構,以期為這個全新技術領域,提供可落地的最佳實踐,并推出了云原生 AI 套件,通過數據計算類任務的編排、管理,以及對各種異構計算資源的容器化統一調度和運維,顯著提高 GPU/NPU 等異構計算集群的資源使用效率和 AI 工程交付速度。
針對 AI 計算類任務的特性,在 Kubernetes 核心 Scheduler Framework 的基礎上進行了大量擴展和增強,提供了支持 Gang Scheduling、Capacity Scheduling、Binpack 等任務調度策略,提升集群的資源利用率。并與 Kubernetes 社區積極合作,持續推動 Kubernetes 調度器框架演進,保證了 Kubernetes 調度器通過標準的 plugin 機制,可按需擴展出各種調度策略,來滿足各種工作負載的調度需求。同時避免了類似其他 custom scheduler 對集群資源分配帶來數據不一致的風險。
-
支持 GPU 共享調度和拓撲感知調度,NPU/FPGA 等定制芯片調度,提升 AI 任務的資源利用率,同時通過阿里云自研 cGPU 方案,在無需修改應用容器的前提下,提供了 GPU 顯存和算力的隔離。
-
在計算和存儲分離的大背景驅動下,基于 Fluid 提供一層高效便捷的數據抽象,將數據從存儲抽象出來,通過數據親和性調度和分布式緩存引擎加速,實現數據和計算之間的融合,從而加速計算對數據的訪問。并支持以 Alluxio 和 JIndoFS 為緩存引擎。
-
支持 GPU 等異構資源的彈性伸縮,通過智能的削峰填谷,避免不必要的云上資源消費。同時支持彈性模型訓練和模型推理。
3. Kubernetes 應用大規模落地,集群高可用成為主要挑戰
隨著企業的 Kubernetes 應用大規模使用和落地,如何持續提升 Kubernetes 集群的整體穩定性是核心挑戰。然后 Kubernetes 集群作為一個分布式系統存在高度復雜性,在應用、基礎設施、部署過程中任何一個地方的問題,都可能導致業務系統的故障。這不僅需要應用 Kubernetes 的企業有對云原生容器技術的高可用體系保障,還需要企業云原生運維體系理念的整體升級。
-
以 SLO 定義驅動可觀測性體系:針對 Kubernetes 的容量規模建設了性能壓測常態化能力,必須對 Kubernetes 集群之上的業務場景能夠對包括節點數、POD 數、Job 數,核心 Verb 的 QPS 數有明確了解。結合業務的真實場景進行 SLO 的梳理,持續關注請求量,延遲、錯誤數、飽和度等黃金指標。
-
常態化的故障演練和混沌測試:比如結合混沌工程理念的 ChaosBlade,正對容器集群的不同風險動作,注入不同的異常案例,從 VM、Kubernetes、網絡、存儲到應用的全方面故障模擬。
-
精細化的流控風控:針對壓測和故障演練過程中發現的異常進行防護能力建設,可以借助 Kubernetes 在 1.20 beta 了 API 優先級和公平性的細粒度流控策略。阿里云容器服務也內置了自研的 UserAgent Limiter 進一步保障 Kubernetes。
除了全局高可用能力的建設外,需要能夠有 SRE 團隊平臺化能力的建設:
-
打造統一的 Kubernetes 運維服務界面,沉淀運維和可觀測能力,讓每個 SRE/DEV 能夠無差別的 OnCAll 或支持,有 2 個子目標:1)盡量避免發生問題;2)盡快發現和定位問題,以及盡快恢復問題,建設全局高可用應急體系。
-
重實踐和演練:基于場景進行實踐,知行合一。從知觸發,到行完成是一個閉環,然后不斷通過知行的一個循環過程。以賽帶練,比如雙十一大促,限電,斷網等極端場景,穩定性建設,需要針對極端場景進行,容量的規劃和壓測,組件治理等都是需要一些特殊的場景催生。有了賽場,要打好這場仗,就需要通力協作,就會不斷形成一個大的協同協作機制。
4. 基于容器的分布式云管理加速落地
2021 年,基于 Kubernetes 來屏蔽異構環境的差異,搭建分布式云架構已經成為企業和云廠商的共識。2021 年 5 月的云峰會上,阿里云發布了一云多形態的部署方式,基于飛天架構的一朵云可以全面覆蓋從核心地域到客戶數據中心的各種計算場景,為客戶提供低成本、低延遲、本地化的公共云產品。在一云多形態發布之前,阿里云容器服務在 2019 年的云棲大會上發布了云下 Kubernetes 的注冊集群能力,支持統一納管云上云下的不同 Kubernetes 集群。
今年,阿里云容器服務進一步全面升級了中心云、本地云、邊緣云容器集群的統一管理。能夠將成熟的云上原生可觀測、安全防護能力部署到用戶環境,更可以將云端先進的中間件、數據分析和 AI 能力下沉到本地,滿足客戶對于產品豐富度以及數據管控的需求,加速業務創新。并依托強大的彈性算力,通過托管彈性節點,企業可以按需從本地擴容到云端,實現秒級伸縮,從容應對周期性或突發業務流量高峰。
趨勢:容器技術重點發展方向分析
1. 容器技術高效調度助力綠色低碳計算
數據中心作為數字經濟的動力引擎,其能耗增長已成為云計算發展中不可忽略的問題。據報道,2020 年數據中心耗電量超過國內總用電量的 2.3%。而且占比將逐年增加。阿里云在身體力行地推動綠色計算,比如利用浸沒式液冷服務器來降低數據中心 PUE。除此之外,我們看到數據中心的計算效率也有很大提升空間,據統計,全球數據中心的平均資源利用率不到 20%,這是巨大資源和能源浪費。
持續發揮容器技術的高效調度和彈性能力,可以幫助企業有效提升整體的 IT 資源利用率,提供極致的能效比。結合最新的節能數據中心技術、新一代神龍架構、自研芯片、容器優化操作系統實現上下游的全棧優化,提升應用的整體性能和調度效率。以數據驅動的方式,根據應用運行時資源畫像實現智能化調度和實時調整,簡化了應用資源配置的復雜性,進一步提升應用的混合部署,降低資源成本,助力企業整體的 FinOps 管理。
2. 云原生 AI 應對 AI 工程化挑戰
Gartner 預測,到 2023 年,70% 的 AI 應用將基于容器和 Serverless 等計算模型構建。AI 要成為企業生產力,就必須以工程化的技術來解決模型開發、部署、管理、預測、推理等全鏈路生命周期管理的問題。我們發現,AI 工程化領域有三大亟待推進的事情:數據和算力的云原生化,調度和編程范式的規模化,開發和服務的標準化普惠化。這些需要持續優化 GPU 等異構架構的高效調度,結合分布式緩存、分布式數據集加速等技術,結合 Kubeflow Arena 的 AI 任務流水線和生命周期管理,全面升級 AI 工程化能力。
3. 集群智能自治和智能化運維體系建設
云原生已經成為勢不可擋的技術趨勢。Gartner 預測到 2025 年,95% 數字化運維將通過云原生平臺進行支撐。實現容器集群能自治能力將成為重點發展方向之一 ,通過引入更多的數據化智能化手段,推動容器的智能化運維體系,降低企業對復雜容器集群和應用的管理,包括增強 Kubernetes master、組件和節點的自愈自恢復能力,提供更加友好的異常診斷、Kubernetes 配置推薦、彈性預測等能力。
4. 全面推進 DevOps 向 DevSecOps 演進
容器安全合規問題還將持續受到關注,需要全面推進 DevOps 向 DevSecOps 演進,在容器軟件供應鏈中,對安全風險進行自動化分析、修復和阻斷。比如面向 Helm、Operator 等 OCI Artifacts 優化整體的安全定義、簽名、同步和三方交付;加固容器的南北向和東西向的網絡隔離和治理,推進零信任的鏈路安全;進一步提升安全容器和機密計算容器的性能和可觀測能力。
點擊??此處??,即可查看容器服務 ACK 產品詳情!
總結
以上是生活随笔為你收集整理的2021 阿里云容器服务年度盘点:企业级容器应用变化和技术趋势观察的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云原生背景下故障演练体系建设的思考与实践
- 下一篇: Spring Boot Serverle