大促场景下云通信高可用、稳定性实战
為了幫助用戶更好地了解和使用云通信的產品,秒懂云通信系統課程還在繼續中。12月21日的秒懂云通信,阿里云高級技術專家盧彬彬分享了《安全可靠 穩如泰山+揭秘雙11背后阿里云通信黑科技》,帶你了解電商大促場景下云通信是如何賦能全鏈路高效連接,確保系統的高可用、穩定性的最佳實戰。
本次分享主要包括三個方面,第一是針對和穩定性,云通信業務架構如何保證;第二是從流量和整個流程和機制上,如何保障穩定性;第三是流量控制體系是怎么支持云通信的高可用、穩定性的。
云通信平臺技術架構
云通信的整體平臺架構構建在阿里云的基礎設施之上,技術架構上則分成三層的架構:
第一層架構多網關分組這一層,主要是面向供應鏈體系,通過多協議適配、多接入方式、多region部署解決供應鏈資源快速的接入和使用,同時在高可用性上通過物理、邏輯多維度的隔離的隔離措施以及全覆蓋的心跳管理體系,解決供應鏈通道出現故障時的快速隔離和恢復。
第二層是業務處理層,核心包括風控體系以及資源的智能調度、智能決策。主要是針對通信業務比較核心的基礎能力平臺,技術上基于多隊列、削峰填谷、業務客戶等維度資源隔離、延遲、限流、降級容災等一系列的手段保障平臺穩定運行。通過這些年的積累,形成了通信業務的安全、調度平臺,結合ASR、TTS、NLP等AI技術,解決業務的安全、多模型的調度策略,讓通信業務更健康、更高效的觸達消費者。
最上層是面向客戶的統一接入層,為了能讓客戶更方便的管理和使用云通信的服務,除了提供官網控制臺的基礎開通、查詢等功能,我也提供了面向開發者的多語言的OpenAPI SDK以及移動、PC端側SDK,覆蓋各種業務場景,通過技術手段幫助客戶快速、便捷地集成使用云通信的能力。
多網關分組架構
大促場景下流量是非常大的,云通信在面對洪峰流量的時候,需要按照業務場景進行隔離,針對容災情況、資源、供應鏈、熱點數據處理進行隔離。這一套非常標準的流程和機制,能保證云通信針對高并發的情況下的系統穩定性,實現客戶角度的完全無感知。
流量控制系統架構
通常在大促場景下,客戶的入口流量可能會呈現非常大的突發性,從客戶入口量進來以后,經過中間這層核心的流量管控機制,最終保證客戶的請求非常平穩的分發到不同的地域、分組以及機房。
再舉個一個更實際的例子,假設我們把洪峰流量比喻成水流,那么流量控制系統就是三峽這樣的水利系統,當遭遇流量洪峰,如果不被很好控制,很有可能會帶來業務場景的損失,或者達不到SLA要求,所以流量管控體系非常重要。
基于阿里云通信流量控制系統,即使入口流量非常巨大,也能通過流量控制器將并發流量平緩、穩定的分發到不同網關和地域分組上,保證資源的穩定性。同時,任何一個節點出現了不穩定的情況,系統都會第一時間感知并且做出調整,整個過程客戶無感知。對于整個流量控制系統的架構來說,客戶從入口流量到出口流量的場景是非常豐富、復雜的,而阿里云通信整體的控制體系可以完成自動化的閉環,利用削峰填谷等平滑調度策略,保證業務的平穩。此外,在決策系統會按照客戶與資源的情況進行一個最佳的匹配,確保延遲、成功率、穩定性等均得到保障。
總而言之,阿里云基于數據、算法和平臺,打造的一套完整的流量控制體系,可以實現從入口流量的客戶場景轉換,到資源池、邏輯資源、物理資源、通道、網關連接等全鏈路的自動化匹配轉換,實現全生命周期閉環管理。
從一個具體場景來看,從入口流量開始,假設一個客戶批量請求了100萬短信,流量控制體系第一道先把客戶的請求按照場景先做一層緩沖控制。轉換完以后,結合實際的資源情況做了一層供需關系的一個匹配和控制。最終我們分發到單個連接的QPS的時候,從客戶的入口流量來說,瞬間請求可能達到10萬QPS,而真正分發到單連接的時候就變成非常低了,對于運營商來說,他的系統也是非常穩定的。所以也不會因為客戶入口流量沖擊導致出口流量不穩定,以此來保證無論客戶使用場景多復雜,最終的SLA和請求耗時、延遲都能滿足客戶需求。
如何保證平臺運行穩定?
在企業生產過程中,平臺運行的穩定性是重中之重。“在穩定性上, “1、5、10”是我們始終追求的目標,1分鐘發現,5分鐘定位,10分鐘恢復?!痹谙到y的穩定性和高可靠上主要是圍繞4個方向展開。
第一是在全鏈路的容災體系建設,當前整體鏈路包括對于第三方的依賴完整支持了雙機房、雙活高可用體系的建設。在整個鏈路上通過心跳等實時探測機制,在應用、機器、機房維度出現故障是具備分鐘級別隔離的能力。基于阿里本身沉淀的故障演練機制,會通過定期、突襲的演練方式,發現問題逐步迭代完善、演進平臺的技術架構。
第二是在統一的接入和網關的接入層面,采用了多region的策略,就近邊緣部署,降低接入成本,降低數據在物理網絡鏈路傳輸過程中的時延,保障通話質量。同時,跨region的容災體系可以在當某個region出故障的時候,能夠切換到另外一個region進行服務,進一步提升服務的穩定性。
第三是主要在網關層面,通過不同的接入方式,以及多維度降級、逃生的容災策略,基于客戶特性、產品特性和資源特性做了不同維度的降級和切換策略來保障極端情況下的業務持續可用。
第四是在整個鏈路層面進行監測以及分級告警,針對核心業務和核心鏈路提供7x24小時運維保障,針對系統運行過程中出現的告警定義了p1-p4的分級,對不同級別的告警我們采用了多種的觸達方式,如釘釘消息、短信、電話形式進行不同配置的觸達,通過告警的升級和觸達方式的升級盡可能保證在最短的時間內發現問題、處理問題,恢復線上的生產。
后續更多產品、技術和活動信息,可以進入云通信官方交流群進行了解:
點擊觀看直播回放:https://yqh.aliyun.com/live/detail/21594
點擊進入秒懂云通信,獲取更多視頻:
https://yqh.aliyun.com/live/cloudcommunication-videos
原文鏈接:https://developer.aliyun.com/article/780331?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的大促场景下云通信高可用、稳定性实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Kubernetes 集群 DNS 服务
- 下一篇: Serverless Live | 9