腾讯高性能分布式路由技术,亮相亚太网络研讨会APNet
亞太網絡研討會(APNet)匯聚亞太地區計算機網絡和系統領域最優秀的研究人員,分享各自最新的研究成果,討論當前最前沿的熱點研究問題。2020年8月3-4號,為期兩天的第四屆亞太網絡研討會(APNet’20)在線上舉行,包括騰訊、阿里、微軟、英偉達、思科、字節跳動等分別分享了各自在網絡領域的最新成果,其中騰訊TEG網絡平臺部架構師呂建超做了主題為Scalable and Flexible Routing Service for Tencent Cloud Access Network的演講。
https://conferences.sigcomm.org/events/apnet2020/index.html
隨著云計算、5G、AI等的普及應用,越來越多客戶將自己的服務部署在騰訊云上,騰訊云的規模在近幾年迎來了爆發式的增長。高速增長的客戶連接請求和海量的終端用戶訪問,對騰訊云的接入網絡提出了新的挑戰。
2020年08月03號,在亞太網絡研討會APNet上,騰訊詳細介紹了騰訊軟件定義路由器(SoftwareDefined Router)的架構,設計理念,以及SDR在不同的接入場景中如何通過軟件定義的方式解決云網絡規模下的靈活性,擴展性和高可用性。
騰訊的接入網絡主要有三種場景
1.專線接入,通過在接入點部署專線網關,將大型企業客戶自有數據中心就近接入騰訊網絡,為客戶提供高帶寬、低時延和高安全性。
2. VPN接入,企業分支通過Internet接入騰訊云,以低成本的方式訪問云上資源。
3. 終端用戶接入,騰訊通過在全球的區域核心和POP點部署TIX(Tencent Internet Exchange)基礎設施,為全球終端用戶訪問騰訊云上資源提供高效通道。
早期,在騰訊云規模還比較小的階段,騰訊的接入網絡主要通過部署傳統商業路由器或交換機實現和外部網絡的互聯互通。
隨著騰訊云近幾年的高速發展,新的挑戰不斷出現,包括:
1.??? 千萬級別路由表項,10T級別轉發性能,不同維度能力能夠按需橫向擴展
2.??? 網絡特性需快速迭代,滿足不同接入場景的互通和調度需求
3. ?? 網絡Capex和Opex需持續優化
由于傳統的商業網絡設備并不是面向云網絡而設計,面對云網絡規模下新的挑戰,逐漸無力支撐。主要表現在:
1.??? 軟硬件廠商綁定,高度耦合,特性迭代周期長
2.??? 性能、規格無法靈活按需擴展
3.??? 高成本 ?
顯然,面對云網絡規模,我們需要全新的系統架構。為此,網絡平臺部基于高可擴展、超靈活、高可靠、高可運維的設計原則,重新設計了面向云網絡規模的網絡服務架構。
新的架構,我們稱之為軟件定義路由器(Software Defined Router),核心理念是將復雜的網絡功能和特性從網絡硬件上剝離后轉移到通用x86服務器上,面向云網絡需求,通過軟件編程的方式定義云網絡路由器。
新的架構體系下,網絡功能整體上被劃分為overlay網絡和underlay網絡。
Overlay網絡又進一步劃分為四大功能組件,Data Plane、Routing Plane、Control Plane和Orchestrator。不同功能組件部署在不同的服務器集群,各組件可根據自身特性和需求獨立進行設計,維護和升級。同時,基于軟件編程的模型,極大提升了網絡的靈活性,開發和迭代速度相比于傳統網絡提升了10x,更快更好的滿足客戶的多樣化需求。
Underlay網絡采用低成本的盒式交換機組網。underlay網絡只需提供簡單的IP Backbone功能,用于連接內部組件和外部網絡,underlay網絡對overlay業務完全不感知。
SDR的內部組件之間通過分布式消息隊列高效同步路由、ARP及靜態配置信息,同時在邊緣部署EA交換機,用于和外部網絡互連。EA交換機工作在L2網絡中,負責向外部網絡提供多類型的互聯端口(GE/10GE/00GE)和實施L2層網絡隔離。Data Plane通過自研的用戶態協議棧,負責高性能的數據轉發。Routing Plane和外部路由器及內部路由組件之間通過BGP協議傳遞路由信息。Orchestrator和Control Plane分別以Global Controller和Local controller的角色負責全局或區域級配置、管理及運維信息的同步。另外,為高效的同步SDR內部組件間的海量動態流表信息,Control plane同時提供高性能分布式消息通道和分布式存儲服務。
作為內外網絡的連接器,全新架構下的SDR,通過在全球Access Site的部署,徹底打通了傳統網絡和云網絡的任督二脈,實現了外部網絡及騰訊內部網絡的高效互聯互通,為多樣化網絡服務的集成和互操作提供了極大的便利性。
SDR天然軟件定義的特性,使其無論是在靈活性、擴展性、可靠性和可運維性上,相比于傳統網絡都呈現除了實質性的升級。
靈活性方面,外網出口流量,通過SDR的Flex rules,可以根據不同客戶,不同業務的需求,實現精細化的靈活調度。外網入口流量,通過超大規格路由表,可實現基于32位Ipv4或128位Ipv6粒度的精細化調度,支撐內部網關或服務的靈活遷移和災備。
FW/DDoS等安全服務,利用SDR的Flexrules,可按需引導攻擊或異常流量的重定向和清洗后流量的回流。通過在FW service和SDR之間部署VxLAN,支持FW service本地化部署,或遠端部署。DDoS防護上,SDR同時支持基于軟件的大規格轉發表項,和基于硬件的超大帶寬轉發能力。
為了進一步提升性能,SDR引入Tencent Smart Switch(TSS)實現硬件加速。TSS是騰訊自研的可編程交換機,提供硬件T級別的線速轉發能力和微妙級的低時延。TSS被定義為Data Plane的offloading組件,通過可編程語言對ASIC報文處理行為進行定制,形成通用的基于流和基于LPM的Pipeline,通過和Data Plane、Control Plane的協同工作,為不同業務場景提供硬件加速能力。
SDR目前可提供10Tbps的轉發能力,1000萬級別的路由表,100k/s的端到端路由更新能力。
可靠性方面,基于冗余架構設計,各個組件出現單點故障時,系統不受影響。同時,由于組件之間完全解耦,轉發平面,在其他組件故障時,可提供Non-stop forwarding (NSF)能力正常處理報文。路由平面,SDR將BGP功能進一步拆分為BGP speaker unit和BGP route computation unit, 部署在不同的集群中。其中,BGP speaker unit以peer粒度進行部署,升級和快速故障恢復,提供Non-Stop Routing (NSR)能力。
可運維方面,SDR通過和Real-time Monitoring and Operating System(RMOS)系統的聯動,實施不同級別cluster-level、server-level、core-level的實時探測和故障快速隔離。同時,根據豐富的日志和告警信息,對SDR健康狀況進行實時監控。另外,SDR提供一鍵隔離,快速路由收斂和跨域容災等能力,從全網視角保證客戶業務不中斷。
未來,SDR將提供針對不同層級網絡,端到端的,實時網絡質量探測和分析能力。基于實時的、不同維度的網絡質量、SDR將實施動態的、多維度、細粒度的流量調度策略。同時,SDR將集成網絡仿真和網絡驗證平臺,進一步提升全網的可靠性和可運維性。
總結,面向云規模網絡,SDR通過軟硬解耦、功能解耦和軟件定義的方式,為騰訊云構建了一個具備超高靈活性、擴展性、可運維性和低成本的全新接入網絡。
總結
以上是生活随笔為你收集整理的腾讯高性能分布式路由技术,亮相亚太网络研讨会APNet的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有意思的 Node.js 内存泄漏问题
- 下一篇: 这才是真正的Git——Git实用技巧