干货 | 为了让携程上万员工上好网,他们做了这些
作者簡介
孫穎, 攜程技術保障中心網絡管理團隊高級工程師。從事IT互聯網網絡運維工作十余年,目前負責IT網絡及WiFi網絡設計、建設及運維。
引言
隨著移動互聯網的飛速發展,WiFi也已經成為企業辦公網絡必不可少的基礎設施。越來越多的企業對無線辦公網產生了極為剛性的品質需求。曾經“WiFi不好影響工作”的玩笑,放在今天已成為事實。
遺憾的是,許多無線辦公網建成后的使用品質與預期存在不小的差別,“網絡不好”的抱怨不絕于耳又難以解決,究其原因,主要是由于“交付與運維沒有到位”。
對于任何網絡系統來說,在設備規格滿足需求的情況下,規劃、交付和運維水平決定了實際使用效果。但相對于有線網絡,WiFi網絡的質量受到更多因素的干擾,更易引起質量下降且排查困難。這給Wifi網絡的交付與運維帶來了很大的挑戰。
本文基于實踐經驗,定位于為WiFi組網提供從交付到運維階段的技術賦能,從以下兩方面為企業WiFi的IT管理者提供一些借鑒與啟發。
1)了解WiFi運維方法論;
2)提升WiFi運維能力。
一、攜程WiFi平臺概述
2015年攜程總部進駐凌空SOHO。依托主流廠商解決方案,完成無線WiFi全面覆蓋。目前共計部署AP信息點600+,覆蓋達10+萬平方米,,日均活躍終端突破7000,峰值下行吞吐量超過1Gbps。
邏輯拓撲(見圖1)
圖1
二、開局篇
首先需要明確,文檔主要專注于WiFi品質的優化工作,其它相關工作應結合企業自身環境及需求完成基礎建設。
開局涉及網絡規劃、網絡交付兩個階段。開局似建筑過程中的地基環節,只有地基打好了,才能起高樓。
大型企業實現WiFi高密度部署,確保用戶體驗的主要挑戰:
1)無線的全面覆蓋;
2)無線容量與干擾的平衡;
3)內網的安全威脅。
2.1 無線的全面覆蓋
以攜程為例,辦公區域面積大,結構復雜。無線信號的覆蓋需要綜合考慮建設結構、穿透損耗及布線等具體情況。WiFi有效覆蓋涉及AP覆蓋、AP容量兩方面,了解AP覆蓋的基礎知識,對360度的無死角覆蓋及AP選型將有極大幫助。
AP覆蓋的有效范圍取決于AP和終端之間的鏈路預算。鏈路預算計算公式如下:終端接收信號強度=AP發射功率+AP發射天線增益-空間傳輸距離衰減-障礙物損耗+終端接收天線增益。其中,空間距離對信號的衰減如下:
為滿足移動辦公場景下BYOD不同類型終端(便攜筆記本、智能手機、PAD、啞終端等)的接入體驗,終端信號強度及AP覆蓋半徑建議值如下:
重點覆蓋區域終端接收信號電平應大于-65dBm;
普通覆蓋區域終端接收信號電平應大于-75dBm;
空間開闊且用戶較少時,AP覆蓋半徑<20米;
空間開闊且用戶密集時,AP覆蓋半徑5~8米為宜;
存在少量障礙物遮擋且用戶數分布適中時,AP覆蓋半徑以8~12米;
存在大量障礙物遮擋時,重點考慮障礙物對信號的衰減,建議對小空間單獨AP覆蓋。
2.2 信道的配置優化
對于密集和數據流量需求高的場景,密集布放AP是提升用戶體驗的一種重要手段。但密集布放常常導致信道之間的相互干擾,從而影響用戶體驗。大型移動辦公必須對WLAN信道進行統一規劃并實施。
攜程網WiFi遵循:雙拼蜂窩覆蓋、交叉復用原則(見圖2),保證信道間不相互干擾。
圖2 雙頻蜂窩覆蓋
WiFi系統主要應用兩個頻段:2.4GHz和5.0GHz。由兩個頻段自身信道的特性,在高密度的場景下需要盡量的抑制2.4G射頻,避免低速用戶傳輸對網絡傳輸的影響。
2.3 內網的安全威脅
同一vlan內、不同vlan間通訊的終端應采用隔離技術,有效防止終端之間傳輸大量文件損耗AP有限的帶寬資源,也防止終端之間的任意互訪有可能導致的數據竊取、文件中毒等惡意行為,最大限度地確保辦公安全,提高辦公效率。
三、運維篇
開局篇網絡優化只是打好了地基。長期良好的WiFi上網品質,是以貫穿整個WiFi系統生命周期的優化工作為基礎,需要持續投入。
WiFi運維的痛點:
1)設置參數多,網絡優化難。WiFi網的優化相對來說復雜,包含了射頻領域的專業知識,甚至多數情況下無法直接找到優化網絡的設置項及設置值,只能通過多維度的數據看到幕后端倪。
2)網絡體驗數據難以收集和展現。單憑文字描述已經很難達到預期效果,如何量化網絡服務水平,將直接制約網絡信息部門的工作成果評估。
以上兩大煩惱,揪其主要原因在于大多數企業對WiFi的運維簡單拷貝有線網運維經驗,主要依靠廠商提供的網優功能,僅從系統設備層面對系統的健壯性進行監控,而很少從提供用戶服務體驗的角度建立、健全監控機制。
3.1 規劃有效的KPI參數
任何網絡平臺的搭建都有其原生的管理系統管理平臺。多數情況,原生管理系統僅從設備性能角度出發,列舉盡可能的參數指標。WiFi系統環境多變,參數繁雜,監控數據的搜集涉及許多層面的知識(諸如功率、信道規劃等)。
如果不對其進行梳理,只是簡單實現對其有無的監控,則很難發揮這些數據價值,對整個系統缺乏有效評估:一方面導致運維處于被動式的排障;另一方面導致排障階段出現類似“瞎子摸象”的困局。
解決問題的關鍵是把“概況-體驗”結合,一方面借鑒有線網絡運維經驗,甄別原有監控平臺的各項指標,遴選出全局、局部二個層面的KPI綜合評分,建立全網主動運維能力;另一方面加強對用戶體驗的關注,利用自身開發平臺,縱深收集用戶網絡層指標,從用戶可用性角度建立用戶層面的KPI指標。
攜程結合自身的運維經驗,
全局、局部的KPI考量、匯總表如下:
維度 | 指標名稱 | 適用場景 |
認證服務器 | 服務器基礎 | 全局WiFi路徑設備級監控 |
服務狀態(死活) | ||
AC | AC名稱 | 全局WiFi基礎網絡質量監控 |
在線時長 | ||
CPU實時利用率 | ||
內存實時利用率 | ||
接口流量統計 | ||
AP | AP名稱 | 區域性WiFi基礎網絡質量監控 |
AP CPU利用率 | ||
AP 內存利用率 | ||
AP? ?接口速率 | ||
接入終端 | ||
接入成功率 | ||
接入掉線率 | ||
上/下線監控 | ||
射頻 | 信道利用率 | |
噪聲強度 |
?
自建監控平臺,為用戶提供用戶角度KPI呈現入口,同時將生硬、專業的參數指標轉化為網絡可達性、可用性指標:(示例見圖3)
圖3
3.2 量化系統基準及用戶評估體驗
WiFi網缺乏量化的數據評估,一直以來是無線網用戶體驗難有提升空間的原因。WiFi運維下經常會聽到用戶反饋“上網慢”等模糊性體驗的抱怨之聲。在此情況下,因為缺乏有效的基準數據和用戶體驗量化值,從而造成網絡運維人員心理評估基線與用戶實際需求管理之間的溝通障礙。
一方面報障階段數據缺失,運維人員不能準確理解用戶抱怨點,造成疲于奔命的解釋和漫無目的的查找原因;另一方面解決效果缺乏數據支撐,對用戶模棱兩可的回答造成用戶被忽悠的感覺。WiFi運維工作處于兩難的困境。
3.3 部署“探針“,量化服務基準值
建立用戶體驗指標,我們就需要廣泛收集終端網絡訪問閉環周期內的相關指標。但由于用戶終端設備的私有屬性及手機平臺的限制,無法通過實際用戶終端持續有效的獲取用戶信息。
對此,攜程網絡運維團隊另辟蹊徑,基于“樹莓派”產品進行開發,模擬用戶Http訪問,通過撥測方式收集、統計DNS解析時長、WEB連接時長、下載速度等信息,從而實現“基準分析“模塊,用直觀的方式呈現WiFi網絡的運行情況。
用戶微信的使用效果經常是企業“WiFi好不好”的直接體現。微信通訊協議:為保證穩定,微信用長鏈接和短鏈接相結合,微信劃分了http模式(short鏈接)和 tcp模式(long 鏈接),分別應對狀態協議和數據傳輸協議。
1)short.weixin.qq.com主要用途:
用戶登錄驗證;
好友關系(獲取,添加);
消息sync (newsync),自有sync機制;
獲取用戶圖像;
用戶注銷;
行為日志上報。
朋友圈發表刷新
2)long.weixin.qq.com主要用途:
接受/發送文本消息;
接受/發送語音;
接受/發送圖片;
接受/發送視頻文件等。
基于上述說明,攜程利用探針程序,通過以下指標,從DNS解析-->TCP連接-->客戶端準備-->服務器響應-->數據傳輸進行階段監測。(見圖4)
圖4
3.4 量化用戶體驗值
針對用戶反饋無量化問題,攜程在內部“程里人”系統下嵌入無線自檢工具。用戶可主動在終端發起測試,將問題時段的“信號采樣“及”WEB下載速度“直接上報至后臺系統,解決用戶體驗與數據量化之間的矛盾。(示例見圖5)
圖5
四、排障篇
WiFi排障存在兩大難點:
1)網絡故障難以重現。很多時候用戶反映WiFi網問題,需要至現場反復確認,很多問題由于無法重現當時情景,導致無法及時得到處理,從而影響用戶體驗和服務效率;
2)企業WiFi多采用有線無線融合運維,WiFi存在“背鍋”問題。對很多終端用戶來說,WiFi就是互聯網,一旦有問題他們就會反饋“WiFi不好”?!癢iFi不好”背后存在太多可能性,例如互聯網接入等出現問題,但由于用戶終端缺乏檢測手段,很難有效將故障從有線、無線層面進行界定。
解決上述問題的關鍵在于對用戶數據包歷史的留存。
4.1 建立用戶數據流量包追蹤
?
有線環境對于個體問題定位的終極解決方案就是抓包分析。借鑒該思路,WiFi排障問題上我們也希望盡可能獲取靠近用戶終端側數據包。 考慮WiFi傳輸層的加密及終端環境多變,故障現象短暫等因素,WiFi環境下終端抓包具有很大局限性。為此則需要從網絡層對用戶的數據包進行留存。
有了上述思路,數據采樣收集點的位置選擇則尤為重要。綜合三方面考慮:1、盡可能靠近用戶側;2、規避加密傳輸;3、明確劃分有線、無線端。
對此,攜程在無線與有線對接點部署“流量采集器”(邏輯圖示見圖6),以上帝視角忠實記錄了從現在往前一端時間內無線網絡的完整數據,排障階段不管是對歷史記錄的回溯,還是對復現過程中的模型建立,提供了有效的數據樣本。
圖6
五、案例篇
通過上述WiFi全生命周期監控健全與優化,經過內部實踐,切實對問題的排查起到了的事半功倍之效。
案例一,利用“流量采集器”,對PTK兼容性引發的網絡故障的定位和解決
內部某用戶反饋:iPhoneXS在連接一段時間后概率性無法上網。通過基礎監控平臺,我們發現問題時段,故障用戶關聯的無線設備及用戶自身終端的信號狀態均正常,但網絡通訊中斷。
通過“流量采集器”回溯故障時間的用戶數據包(見圖7),通過分析,發現其數據流具有以下特點:1)故障前用戶存在較大的流量下載行為;2)故障時間段AC層面轉發正常。
圖7
基于存檔數據包分析,故障有效定位在AC與終端之間。模擬故障前后用戶數據特性,結合實際環境配置參數,問題很快在廠商實驗環境得到復現,至此發現問題的根本原因為:iPhone BCM芯片終端不支持PTK密鑰更新,PTK定時更新會觸發終端概率性不回報文,導致通信中斷。通過關閉設備PTK定時更新功能,故障問題得到根本解決。
案例二,結合監控指標及數據流分析,定位跨AC訪問優化
某用戶終端上報某時間段WiFi通訊中斷。我們通過無線設備綜合評分情況,定位該區域網絡整體質量達標,故障現象屬于個體問題。
進一步向下通過日志繪制出用戶的漫游軌跡,發現問題發生在終端跨AC建聯后。結合“流量采集器”的數據包,可以觀察到終端的下行報文還會轉發到漫游前AC設備。分析組網結構(見圖8),懷疑跨AC前后MAC表項與ARP表項不統一導致。經過問題復現,上述懷疑得到確認。
經過廠商跟進,確認為交換機存在CPUCAR設備偏小問題,導致ARP上送過程中有限速丟棄情況,交換機上arp表項無法及時刷新到漫游后的流量接口上,導致流量轉發異常。
針對上述問題,我們主要通過以下優化措施,對問題進行了有效解決:
1)優化AP點位拓撲,盡可能避免同區域的跨AC漫游;
2)適當調整CP car避免arp丟包;
3)網關設備部署mac 聯動arp,解決arp刷新問題.;
4)進行端口隔離,避免資源消耗。
圖8
?
六、展望
WiFi優化操作應該基于廣泛全面的數據支撐,而不是憑感覺、憑經驗,雖然在此之上我們已探索一二,但WiFi運維仍大有可為。
如何依托有效的數據搜集,通過機器學習,感知指標變化,提供基于用戶體驗閉環的智能運維將成為未來之路。攜程網將與其它大型網絡平臺,攜手并進演進之路,讓“無線辦公”變得“無限精彩”。
【推薦閱讀】
30+業務團隊,攜程無線發布如何做到穩定高效
玩轉社交裂變,攜程小程序營銷實現方案
淺談React數據流管理
攜程萬臺規模容器云平臺運維管理實踐
OCR技術在攜程業務中的應用
總結
以上是生活随笔為你收集整理的干货 | 为了让携程上万员工上好网,他们做了这些的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: img格式图片怎么转JPG?图片格式转换
- 下一篇: adobe acrobat dc试用期更