云栖大会 | 释放计算弹性,阿里云做了很多
時至今日,已經沒有人懷疑云計算是最主流的企業IT基礎設施之一。圍繞云計算最基礎最核心的話題計算力,探討在新硬件、新技術和新場景帶來的機遇和挑戰下,計算產品如何演進,使其價格更加低廉、供給更有保障、穩定性更好等,真正成為一種新的基礎社會資源。其中值得提及最多的就是神龍計算平臺,支撐了阿里巴巴經濟體上云和外部大客戶的全站上云,是阿里云IaaS層的核心創新產品。
在2019年杭州云棲大會上,阿里云正式發布了第三代自研神龍架構。據悉第三代神龍架構支持ECS虛擬機、裸金屬、云原生容器等,貫穿整個IaaS計算平臺并在IOPS、PPS等方面提升5倍性能,用戶能在云上獲得物理機100%的計算能力。
2017年,一代神龍架構震撼現世,主要采用了自主研發的虛擬化2.0技術,兼具“虛擬機的心臟”和“物理機的肌肉”,被認為是云計算領域的新物種。如果仔細梳理神龍架構,我們發現很大程度上繞不開虛擬化技術的發展,甚至神龍可以被定義為是虛擬化技術的一個延伸。無論是從1974年第三代虛擬化架構的新時代要求,還是VMware公司成立等,真正把虛擬化帶入應用階段僅僅才剛開始,以前更多較傾向于理論研究。
對此阿里巴巴研究員,阿里云智能創新產品線總負責人旭卿提及,2009年阿里云開始著手彈性計算,最早使用了開源的Xen;但經過幾年的發展,就在2016年,眾多從事基礎IT的阿里人不禁反思:在云數據中心時代,究竟怎樣的虛擬化技術可以滿足日益增長的需求,畢竟幾十年的虛擬化技術發展以來,但底層架構幾乎未變。是不是可以做一些軟硬融合或者軟件硬件協同的創新來提高虛擬化的效率?畢竟傳統物理機缺陷日漸凸顯。
通常情況下,一臺物理機中包含宿主機以及虛擬機,出現最多的情況就是資源“爭搶”,這就會導致虛擬化效率的降低甚至頻繁出現波動性。此外,云計算要配合虛擬化自然要消耗大量資源;想要做到效率高、性能佳,除了消耗大量的CPU資源之外似乎并沒有更好的辦法 ,相比之下成本激增就是個問題。所以在更高的計算性能、更快的網絡接入,更高的存儲讀寫能力的綜合要求下,神龍就這樣應運而生了。“我們重新定義服務器的架構,讓它更好地服務今天的虛擬化技術,計算效率大幅度提升。”
? ??
可以清晰地看到,發布以后2018年初神龍一代就實現全面商業化,在大規模在云上部署來主要滿足大客戶上云的需求。一代神龍之后,阿里方面發現,如果傳統的虛擬化生產虛擬機和現在使用不一樣的計算架構,就會帶來兩個資源池,成本大幅度上升。如何做到一套架構既可以支持裸金屬服務,又可以支持傳統的虛擬機,提供更高的服務質量,更好地支持容器,還能很好地兼顧成本、技術發展?在此背景下,真正讓虛擬機在神龍架構下性能飛起來,FPGA毫秒級熱升從中帶來很大幫助,完成技術融合與資源并池,成為神龍二代的主要著力點。
如今神龍三代已大成推出,主要集中在系統內部的優化部署,可以簡單概括為芯片的硬化功能。有數據顯示神龍架構和非神龍架構的業務吞吐會高30%,并且延遲保守不動,低負載和高負載完全一樣;同時CPU利用率也會大幅度下降, 通俗來說原來需要一萬臺服務器完成的任務,現在只需幾千臺就可以,這就是神龍架構帶來的最直觀優勢。
目前神龍架構已經統一整體阿里云的計算資源產品,無論是ECS還是容器以及裸金屬服務器等,整個平臺所有的技術紅利都因此被享受到。“接下來,阿里云遍布全球的百萬服務器將全面升級至第三代神龍架構。” 小邪透露,在阿里巴巴內部,神龍架構已大規模應用于淘寶、天貓、菜鳥等業務,解決高峰值的性能瓶頸問題。
如今上云已不再是問題,不僅僅存在于外圍系統,而是核心系統全棧上云,不斷變化的是用戶對計算的需求,首先就是最基礎的彈性計算。例如更大的寬帶、更小的延遲、絕對安全穩定、隱私的存儲環境等。
毋庸置疑,神龍架構將云計算的彈性得到最大強度釋放,談及阿里云針對彈性計算的實踐,阿里云資深技術專家鄭旭東表示,首先從阿里云彈性計算產品來說確實提供了非常卓越的穩定性。
據了解,阿里云提供單實例的SLA穩定性已經保證了99.975%,多實例穩定性則高達99.995%。這個數字代表什么含義?通常的服務器廠商、IDC廠商或者服務商,都不會輕易將SLA寫到供貨合同中。“我們公開SLA指標意味著線上的穩定性遠高于SLA,目前ECS穩定性是線下IDC的穩定性的十倍之多。”
???
通常情況下提升穩定性除了非常巨大的資金和技術投入之外,回到服務的高可用和容災這方面,達到業務的穩定性還需要擴大資源。例如,如果在一個機房內部運作高可用架構,資金投入量會隨著資源使用量呈現線性增長的關系,其支出是條約的方式;除此之外在資源成本外還有很大一部分是研發成本和運維成本,但隨著資源增多,其運維成本也呈現逐漸增長的過程。我們可以看到,在資源本身壓力以及研發成本壓力的作用下的,大多數中小型公司都知道要做各種各樣的容災以及高可用舉措,但現實表現并不是特別理想。
在此背景下,阿里的ECS調度平臺則能把底層OS和硬件缺陷規避很多,可以在X86平臺服務器上提供遠高于業界平均水平的技術服務,保障接近小型機的穩定性;試想一下如果有能力提供這樣的穩定性,毋庸置疑彈性計算上大多數用戶就都可以零成本且100%覆蓋使用高可用服務。
????
具體來說為了達成該目標,鄭旭東認為首先要有強健的基礎設施,例如ECS服務器。據悉從研發設計到真正交付線上之前,至少有四輪非常嚴格標準的驗證,保證線上所有服務器在整個業內是有保障的。“此外最重要的還是線上數據的回環,因為線上的監控數據和線下的壓測平臺是實時打通的,如果線上發現任何硬件異常或者隱患,我們會直接追蹤并解決,這樣就保證了大部分異常隱患都能在第一時間發現攔截并有效。”
據晶少了解,在異常隱患方面,阿里云彈性計算做了很多技術嘗試來精準攔截故障,盡管在理論上依舊無法做到全部,但在預知與解決上收效甚廣,這是整體系統穩定性所必需的具備的。舉個例子,阿里彈性計算每一臺物理機如果出現非預期的故障宕機后,5分鐘之內80%的情況下能直接給出哪個代碼、哪個部件出現問題而導致機器宕機的解決方案。其實故障預測非常復雜,很難用通路的算法得出結論。不同的場景會用不同的模型做不同的調度,最終得出合理的算法模型。強大的數據、算法知識以及團隊合作等都很關鍵。
除了穩定性外,在可靠性上有數據顯示,早在2012年阿里云第一代云主機的PPS是20-30萬每秒,絕大多數的性能損耗主要來自虛擬化過程,必須通過物理機連接網絡,這樣的速度基本沒有辦法支持峰值情況的速度提升;轉眼到了2015年,通過硬件和軟件的技術革新,阿里云將萬兆網卡上的 PPS 從30萬每秒提高到了120萬每秒;待到2017年,阿里云通過用戶態直通虛擬機,為每一次信息傳輸節省大量的時間,完成了原本無法想象的“450萬每秒”。
如今隨著深度學習算法的突破,人工智能技術得到了更迅猛的發展,以異構計算為代表的新加速計算單元不斷催生大量計算類需求,在此發展趨勢的作用下,阿里云正在不斷增加新的實例,未來將會利用人工智能等先進技術在穩定性與安全性上持續深耕,并利用最新一代的網絡技術保證產品性價比與性能穩定。
一直以來阿里云都將精力和時間放在最樸素的需求滿足上,例如網絡以及虛擬化技術的提升等,追求成本與功能的最高性價比,未來阿里云彈性計算技術創新以及產品研發風向如何?我們只需拭目以待。
福利掃描添加小編微信,備注“姓名+公司職位”,入駐【CSDN博客】,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
漫畫:什么是希爾排序?
一次失敗的面試,復習一次一致性哈希算法
Pandas中第二好用的函數 | 優雅的Apply
程序員因接外包坐牢 456 天!兩萬字揭露心酸經歷
限時早鳥票 | 2019 中國大數據技術大會(BDTC)超豪華盛宴搶先看
阿里開源物聯網操作系統 AliOS Things 3.0 發布,集成平頭哥 AI 芯片架構!
雷聲大雨點小:Bakkt「見光死」了嗎?
總結
以上是生活随笔為你收集整理的云栖大会 | 释放计算弹性,阿里云做了很多的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Storm精华问答 | storm与Ha
- 下一篇: 在农村办什么小厂比较合适 2022年