重磅下载 | 核心系统100%上云,揭秘双11背后的云原生实践
2019 雙11,訂單創新峰值達到 54.4 萬筆/秒,單日數據處理量達到 970PB,面對世界級的流量洪峰,今年的阿里交出了一份亮眼的云原生技術成績單,并實現了100% 核心應用以云原生的方式上云:
- 雙11 基礎設施 100% 上云
- 支撐 雙11 在線業務容器規模達到 200 萬
- 采用神龍彈性裸金屬服務器計算性價比提升 20%?
這些數據背后是對一個個技術問題的反復嘗試與實踐。這一次,我們對云原生技術在 雙11 的實踐細節進行深挖,將 22 篇代表性的文章進行編排,整理成書《不一樣的 雙11 技術:阿里巴巴經濟體云原生實踐》旨在為行走在云原生路上的開發者打開新思路、提供一些有益的參考。
許多經過精心設計的架構,平時運行穩定,但在 雙11 的演練中都暴露出了大量的細節問題,雙11 這個獨一無二的場景是阿里技術的試金石。今年 雙11,我們把“最要命”的系統全都放到了云上,實現了核心系統 100% 上云,撐住了 雙11 的世界級流量洪峰。
這離不開云原生技術的創新,希望本書能對開發者和企業客戶產生借鑒意義,共享云計算技術紅利。——?小邪
在 All in Cloud 的時代企業 IT 架構正在被重塑,而云原生已經成為釋放云計算價值的最短路徑。2019 年阿里 雙 11 核心系統 100% 以云原生的方式上云,基于神龍服務器、輕量級容器和兼容 K8s 的調度、集群管理技術,通過云原生開放應用模型 OAM,構建高效和自動化的應用交付體系,大大加快了上云速度;通過升級微服務和服務網格,將服務治理與應用解耦并下沉到基礎設施層,提升治理能力和迭代速度,整體向 Serverless 極致彈性、按用計費、無需運維的架構演進,全面實現核心系統上云,讓雙 11 更穩定讓業務創新更敏捷。
希望通過將阿里的上云和云原生技術落地最佳實踐通過電子書的形式輸出,對開發者和企業客戶產生借鑒意義,加速技術演進共享云計算技術紅利。——叔同
我們采訪了上云總架構師畢玄,以下是他們對于 雙11 核心系統 100% 上云背后云原生的技術思考。
與客戶在同一架“飛機”上
王堅院士曾在很多場合都和阿里的技術人員講到:阿里云作為一家輸出技術的公司,我們需要做到和我們的客戶在同一架“飛機”上,而不僅僅是“造飛機”或看著“飛機”在空中飛,阿里經濟體云化最重要的就是要做到讓我們和客戶在同一架“飛機”上。
早在幾年前,阿里巴巴經濟體就開始借助阿里云的機器資源來支撐 雙11 零點的高峰,云的彈性資源優勢使得 雙11 的機器資源投入成本下降超過 50%?以上,但在這些機器資源上部署的卻是我們自己的技術體系,例如容器、中間件、數據庫、緩存等,也就意味著我們和客戶其實是在不同類型的“飛機”上,而且阿里巴巴經濟體在的“飛機”是專為阿里巴巴定制打造的,外部客戶是買不到的,這是一個典型的從 Hosting 演進到 Cloud Hosting 的階段。為了切實做到和客戶在同一架“飛機”上,在今年 3 月份,阿里云智能事業群 CTO 張建鋒(花名:行癲)正式對外宣布未來一到兩年,阿里巴巴百分之百的業務要跑在公共云上,成為“云上的阿里巴巴”。
從?Cloud Hosting?到 Cloud Native
阿里巴巴經濟體云化是阿里技術發展史上繼之前的分布式架構、異地多活后的又一輪巨大的架構升級,這次架構升級需要把我們從 Cloud Hosting 演進到 Cloud Native,Cloud Native 作為技術圈最火熱的名詞,不同的人的眼中有不同的定義,我們認為 CloudNative 帶來的是一次系統構建方式的巨大變革,Cloud Native 是指業務系統的構建從基于自有、封閉的技術體系,走向基于開放、公共的 Cloud 的技術體系。
在 Cloud Native 時代之前,多數公司隨著業務的發展,或多或少都會打造出自有、封閉的技術體系,這一方面造成了巨大的投入,使得公司的技術人才力量沒有完全專注的投入在業務上,另一方面也造成了這個行業人才流動的困難,因為知識體系的不同,每到一家新的公司幾乎都是全新的一套,這個一定程度上影響了業務創新的速度,盡管很多的開源產品在一定程度上有助于解決這個問題,但還不足以體系化,而在 Cloud Native 時代,我們認為會有兩個典型的特征:
按照這樣的思路,阿里巴巴經濟體云化在走向 Cloud Native 的道路上,我們的原則是:
按照這樣的原則,隨著阿里經濟體云化項目的進展,阿里的業務系統就必將完成從基于自有、封閉的自有體系構建,進化到和阿里云的客戶一樣,基于阿里云上公共的技術產品的體系來構建,從而實現和客戶在同一架“飛機”上。
不一樣的雙11,云原生技術亮點
在這個雙11,我們在以下幾個方面有了一些不錯的進展:
超大規模 Kubernetes 實踐?
2017 年下半年,阿里集團開始嘗試使用 Kubernetes API 來改造內部自研平臺,并開始了對應用交付鏈路的改造,以適配 Kubernetes。2018 年下半年,阿里集團和螞蟻金服共同投入 Kubernetes 技術生態的研發,力求通過 Kubernetes 替換內部自研平臺,實現了小規模的驗證,支撐了當年部分 雙11 的流量。
2019 年初,阿里經濟體開始進行全面上云改造,阿里集團通過重新設計 Kubernetes 落地方案,適配云化環境,改造落后運維習慣,在 618 前完成了云化機房的小規模驗證。2019 年 618 之后,阿里集團內部開始全面推動 Kubernetes 落地,在大促之前完成了全部核心應用運行在 Kubernetes 的目標,并完美支撐了 雙11 大考。
阿里巴巴超大規模 Kubernetes 落地,經受了雙11大促真實場景的考驗, 單集群能支撐萬級別 Node、十萬級別 POD 的規模。我們推進了三個方面改造:面向終態的改造;自愈能力改造;不可變基礎設施改造。相比原有傳統的運維鏈路,擴容效率提升了 50%,集群節點在線率達到了99.9%以上。
阿里巴巴云原生化的最佳組合:Kubernetes+容器+神龍
今年 雙11,我們通過 K8s+容器+神龍的最佳組合實現了阿里核心系統 100%以云原生的方式上云,完美支撐了 54.4w 峰值流量以及 2684 億的成交量。基于 0 虛擬化開銷的神龍裸金屬,通過使用行業標準的容器與調度、編排、管理技術,推動經濟體云原生技術全面升級。容器性能提升 10%、神龍節點可調度率達到 99% 以上、容器穩定性與在線率全面提升。
Service Mesh 超大規模落地
阿里巴巴在 雙11 的部分電商核心應用上落地了完整的 Service Mesh 解決方案,借助 雙11 的嚴苛業務場景完成了規模化落地前的初步技術驗證;螞蟻金服也實現了 Service Mesh 的大規模落地。Service Mesh 所帶來的變化體現于:服務治理手段從過去的框架思維向平臺思維轉變;技術平臺的建設從面向單一編程語言向面向多編程語言轉變。
Service Mesh 創造了一次以開發者為中心去打造面向未來的分布式應用開發平臺的機會,給其他技術產品創造了重新思考在云原生時代發展的機會,給技術基礎設施如何與業務基礎技術更好地協同提供了一次探索機會,并為探索面向未來的異地多活、應用永遠在線的整體技術解決方案打開了一扇大門。
點擊下載
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的重磅下载 | 核心系统100%上云,揭秘双11背后的云原生实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于 Tracing 数据的拓扑关系生成
- 下一篇: 共享学习:蚂蚁金服数据孤岛解决方案