使用机器学习来进行应用识别
分類暫定如下幾種
?
應(yīng)用 | 說明 | 常見場景 | 對應(yīng)上表 |
接入 | 指用戶連上網(wǎng)絡(luò)到可以開始使用網(wǎng)絡(luò)服務(wù)過程,無線指從搜索到信號(hào)開始 | 1x或web認(rèn)證 | ? |
網(wǎng)絡(luò)瀏覽, | Web瀏覽, | 訪問門戶網(wǎng)站瀏覽新聞 | 搜索引擎、網(wǎng)絡(luò)新聞、網(wǎng)上支付、網(wǎng)絡(luò)文學(xué)、網(wǎng)上銀行、微博、旅行預(yù)訂、團(tuán)購、論壇、博客、理財(cái) |
辦公生產(chǎn), | 郵件,云桌面,遠(yuǎn)程登錄 | 接收發(fā)送郵件 | 電子郵件 |
在線視頻, | 在線視頻網(wǎng)站,或通過軟件訪問網(wǎng)絡(luò)視頻 | 在線觀看電影 | 網(wǎng)絡(luò)音樂、網(wǎng)絡(luò)視頻 |
在線游戲 | 一般指MMORPG,特點(diǎn)是受瞬間異常影響大, | 在線RPG等 | 網(wǎng)絡(luò)游戲 |
VOIP, | 常用H.323,SIP,MEGACO和MGCP | 辦公電話 | ? |
文件下載 | FTP,P2P | 下載電影音樂軟件 | ? |
社交應(yīng)用 | Qq,微信,Facebook | 文字聊天,語音,視頻 | 即時(shí)通信 |
數(shù)據(jù)采樣
數(shù)據(jù)只能來自于設(shè)備端,包括靜態(tài)參數(shù)和動(dòng)態(tài)參數(shù)(靜態(tài)參數(shù)指一般不隨時(shí)間變化的值,如設(shè)備內(nèi)存,物理端口數(shù),用戶配置等,動(dòng)態(tài)參數(shù)指會(huì)和數(shù)據(jù)流相關(guān)隨時(shí)間變化的值,如運(yùn)行時(shí)間,cpu利用率,內(nèi)存利用率,溫度,丟包率,帶寬利用率,端口輸出輸入速率,延時(shí),抖動(dòng)等)。
網(wǎng)絡(luò)應(yīng)用類型識(shí)別目前有許多方法和嘗試,比如H3C的NTA系統(tǒng)是根據(jù)端口進(jìn)行區(qū)分,華為則通過支持向量機(jī)來進(jìn)行學(xué)習(xí)識(shí)別。
考慮到本課題的方法必須基于網(wǎng)絡(luò)設(shè)備端,且只能基于目前已有功能提供的數(shù)據(jù),并且不能對網(wǎng)絡(luò)設(shè)備正常功能和性能產(chǎn)生不良影響,故考慮使用基于流的報(bào)文長度特征對網(wǎng)絡(luò)應(yīng)用進(jìn)行分類。
數(shù)據(jù)流技術(shù)是流量識(shí)別中一種常用方法,利用數(shù)據(jù)流以及數(shù)據(jù)流中報(bào)文的某些信息,可將網(wǎng)絡(luò)上的數(shù)據(jù)流進(jìn)行分類,這種分類可加速應(yīng)用流量的分類,如游戲應(yīng)用數(shù)據(jù)流通常是小報(bào)文,而P2P流一般稱為大報(bào)文。基于這樣的特點(diǎn),選取下列網(wǎng)絡(luò)參數(shù)作為采集樣本數(shù)據(jù)組成元素。其中RFC1573中提供了報(bào)文總字節(jié)數(shù)和單播、組播、廣播報(bào)文個(gè)數(shù)統(tǒng)計(jì)值,且分出入方向,RMON-MIB-1757中提供了不同長度區(qū)間報(bào)文的統(tǒng)計(jì)值,按64、128、256、512、1024為界分為6組數(shù)據(jù)。
在設(shè)備端端口上采樣,采樣時(shí)間間隔內(nèi)在對應(yīng)端口的終端上運(yùn)行各種應(yīng)用,見下表
?
應(yīng)用 | 標(biāo)簽 | 終端執(zhí)行動(dòng)作 |
網(wǎng)絡(luò)瀏覽, | Web | 訪問網(wǎng)頁 |
辦公生產(chǎn), | Office | 收發(fā)郵件 |
在線視頻, | Video | 在線觀看視頻 |
在線游戲 | Game | 在線游戲 |
VOIP, | Voip | 撥打voip電話 |
文件下載 | download | 下載大型文件 |
社交應(yīng)用 | Sns |
?
并計(jì)算該時(shí)間內(nèi)各統(tǒng)計(jì)值的變化量,得到一個(gè)n元組<x1,x2,x3,…x13,x14>,并打上標(biāo)簽,構(gòu)建出訓(xùn)練樣本。例如,在時(shí)間t0對端口1采集上面各統(tǒng)計(jì)值數(shù)據(jù)<m1,m2,m3,…m13,m14>,然后端口1下聯(lián)終端開始觀看在線視頻,到時(shí)間t1結(jié)束,再次采集一次統(tǒng)計(jì)值數(shù)據(jù)<n1,n2,n3,…n13,n14>,將結(jié)束時(shí)間數(shù)據(jù)減去開始時(shí)間數(shù)據(jù)即得到目標(biāo)樣本<n1-m1,n2-m2,n3-m3,….n14-m14>,并且該樣本標(biāo)簽為“video”。
這里需要注意2點(diǎn),1:如果某端口上流量變化量太小,視為沒有使用任何應(yīng)用,具體流量閾值需要根據(jù)采樣數(shù)據(jù)評(píng)估。2:不是所有應(yīng)用都是長應(yīng)用,某個(gè)應(yīng)用流持續(xù)時(shí)間可能比采樣時(shí)間短,比如VOIP可能通話就1分鐘,如果采集間隔是五分鐘,則流量特征會(huì)減弱。
由于Rmon采集的報(bào)文不同長度分布數(shù)據(jù)是不區(qū)分方向的,所以考慮對采樣流程改進(jìn),除了voip其他類型直接在終端抓包,保存為標(biāo)準(zhǔn)的pcap文件,然后解析出雙向不同長度報(bào)文的分布數(shù)據(jù)。具體方法是,采樣用標(biāo)準(zhǔn)pcap格式,每類至少10000報(bào)文,100個(gè)報(bào)文提取為一個(gè)樣本,這樣每類至少100個(gè)樣本。
web:測試建議,如購物 門戶 新聞 體育 IT 論壇 博客 政府 郵箱 交通 商業(yè) 中選即可 (采樣:捕捉http報(bào)文 tcp.porteq 80 && http https)
office:測試建議,如郵件,遠(yuǎn)程登錄,svn,(采樣:捕捉outlook遠(yuǎn)程登錄)
video:測試建議,優(yōu)酷網(wǎng) 愛奇藝 土豆網(wǎng) 搜狐視頻 鳳凰視頻 騰訊視頻 新浪視頻 中選即可(采樣:捕捉流量最大ip的雙向報(bào)文)
game:測試建議 英雄聯(lián)盟 穿越火線 地下城與勇士 魔獸世界 夢幻西游 qq飛車 傳奇 逆戰(zhàn) 爐石傳說 劍靈 中選即可(采樣:捕捉游戲服務(wù)器ip的雙向報(bào)文)
voip:測試建議,公司voip電話即可(交換機(jī)上sflow采樣捕捉指定ip即語音網(wǎng)關(guān)的報(bào)文)
download:測試建議(ftp,http,p2p(bt,迅雷)即可(采樣:ftp,http,p2p(bt,迅雷),bt基于多ip抓報(bào)文)
sns:測試建議,qq,微信即可(采樣:基于通訊工具的端口抓包netstat -aon | tasklist,微信抓取看下能否通過有線網(wǎng)絡(luò)捕捉 或者 pc版)???????
無監(jiān)督學(xué)習(xí)
首先考慮使用聚類方法來對數(shù)據(jù)進(jìn)行分類,這里沒有使用到數(shù)據(jù)的標(biāo)簽。因?yàn)楹罄m(xù)需要使用該算法結(jié)果對新的輸入進(jìn)行分類,所以需要使用能夠支持增量分類的方法,從而排除了CURE算法,而DBSACN算法因?yàn)樾枰A(yù)先指定鄰居數(shù)(資料16),也視為不支持增量分類。
這里采用KMeans和KMedoid算法(兩者對比:K-MEANS算法產(chǎn)生類的大小相差不會(huì)很大,對于臟數(shù)據(jù)很敏感,KMedoid算法改善了對噪聲敏感問題,但時(shí)間復(fù)雜度較大)。
根據(jù)前面列舉的網(wǎng)絡(luò)參數(shù),采集了47組數(shù)據(jù)并使用兩種聚類算法進(jìn)行分類,從結(jié)果來看兩種算法都無法正確對類型進(jìn)行分割,其中KMeans將所有數(shù)據(jù)識(shí)別為一類,完全無法區(qū)分,而KMedoid算法除了對辦公應(yīng)用較好區(qū)分,其他幾類甚至連中心都無法區(qū)分開來(見下表)。
分類中心(字母表示應(yīng)用,數(shù)字表示該類應(yīng)用中第幾個(gè)樣本) | 該類集合(數(shù)字表示全局樣本序號(hào),后面字母加數(shù)字見前面所述) |
office2 | ( 11 game1 ) ( 12 game2 ) ( 18 office1 ) ( 19 office2 ) ( 20 office3 ) ( 21 office4 ) ( 23 office6 ) ( 44 web9 ) |
web6 | ( 26 vedio3 ) ( 28 vedio5 ) ( 41 web6 ) ( 45 web10 ) ( 46 web11 ) (47 web12 ) |
web7 | ( 13 game3 ) ( 15 game5 ) ( 16 game6 ) ( 17 game7 ) ( 22 office5 ) ( 29 vedio6 ) ( 36 web1 ) ( 37 web2 ) ( 38 web3 ) ( 42 web7 ) ( 43 web8 ) |
video4 | ( 3 download4 ) ( 4 download5 ) ( 14 game4 ) ( 27 video4 ) ( 32 video9 ) ( 39 web4 ) ( 40 web5 ) |
video7 | ( 0 download1 ) ( 1 download2 ) ( 2 download3 ) ( 5 download6 ) (6 download7 ) ( 7 download8 ) ( 8 download9 ) ( 9 download10 ) ( 10 download11 ) ( 24 video1 ) ( 25 video2 ) ( 30 video7 ) ( 31 video8 ) ( 33 video10 ) ( 34 video11 ) ( 35 video12 ) |
?
因?yàn)榍懊娌蓸訑?shù)據(jù)中只有報(bào)文字節(jié)總數(shù)和各類報(bào)文個(gè)數(shù),而沒有報(bào)文平均長度,從業(yè)務(wù)特征來看報(bào)文長度更能體現(xiàn)流量特性,故考慮新增兩個(gè)參數(shù):
averInOctets=ifHCInOctets/(ifHCInUcastPkts+ifHCInMulticastPkts+ifHCInBroadcastPkts)和averOutOctets=ifHCOutOctets/(ifHCOutUcastPkts+ifHCOutMulticastPkts+ifHCOutBroadcastPkts),同時(shí)消去冗余數(shù)據(jù)ifHCInOctets和ifHCOutOctets。
參數(shù)改造后,再次用KMedoid算法分類得到結(jié)果如下表
?
分類中心(字母表示應(yīng)用,數(shù)字表示該類應(yīng)用中第幾個(gè)樣本) | 該類集合(數(shù)字表示全局樣本序號(hào),后面字母加數(shù)字見前面所述) | 準(zhǔn)確率 |
download4 | ( 3 download4 ) ( 4 download5 ) ( 8 download9 ) ( 9 download10 ) ( 10 download11 ) ( 19 office2 ) ( 27 video4 ) ( 28 video5 ) ( 29 video6 ) | 56% |
game7 | ( 17 game7 ) | 100% |
video8 | ( 0 download1 ) ( 1 download2 ) ( 2 download3 ) ( 5 download6 ) (6 download7 ) ( 7 download8 ) ( 15 game5 ) ( 24 video1 ) ( 25 video2 ) ( 30 video7 ) ( 31 video8 ) ( 33 video10 ) ( 34 video11 ) ( 35 video12 ) ( 39 web4 ) ( 40 web5 ) | 44% |
web12 | ( 11 game1 ) ( 12 game2 ) ( 13 game3 ) ( 14 game4 ) ( 16 game6 ) (18 office1 ) ( 20 office3 ) ( 26 video3 ) ( 32 video9 ) ( 36 web1 ) ( 37 web2 ) ( 38 web3 ) ( 41 web6 ) ( 42 web7 ) ( 43 web8 ) ( 44 web9 ) ( 45 web10 ) ( 46 we b11 ) ( 47 web12 ) | 52% |
office6 | ( 21 office4 ) ( 22 office5 ) ( 23 office6 ) | 100% |
?
可以看出根據(jù)新的參數(shù),拆分出的類型中心符合預(yù)期,但每類中還是有混雜其他類型,整體準(zhǔn)確率只有70%,某個(gè)類型甚至準(zhǔn)確率還不足50%。
僅使用聚類算法效果來看,區(qū)分度并不高,一種可能是目前采集的網(wǎng)絡(luò)參數(shù)還需要增加種類( 這個(gè)要繼續(xù)分析 [l1]?),還有一種可能是受本身數(shù)據(jù)類型影響(這兩種算法只能發(fā)現(xiàn)球形或凸形聚類類型,參考資料17,而目前采集的網(wǎng)絡(luò)參數(shù)集形態(tài)并不知道)。此外,聚類算法中沒有體現(xiàn)出不同屬性的權(quán)重(備注:目前基于權(quán)重的聚類算法有兩類,一種是通過人工設(shè)置權(quán)重監(jiān)督學(xué)習(xí)
這部分描述對采集的數(shù)據(jù)通過監(jiān)督學(xué)習(xí)方法進(jìn)行應(yīng)用識(shí)別的過程
1.??????根據(jù)前面選定的網(wǎng)絡(luò)采樣參數(shù),以及對應(yīng)標(biāo)簽,開始訓(xùn)練。對于樣本數(shù)目,參考資料15中的建議:“要訓(xùn)練出一個(gè)性能良好的模型,所需訓(xùn)練樣本數(shù)量應(yīng)是模型參數(shù)數(shù)量的10倍?!?#xff0c;所以這里至少要140個(gè)訓(xùn)練樣本,而且要得到良好的訓(xùn)練模型,樣本數(shù)量應(yīng)該還要更多。
2.??????使用BP算法得到擬合公式(決策樹適合屬性值為離散的目標(biāo)函數(shù)值也為離散的情形,所以這里不考慮使用決策樹。由于前面聚類方法效果不好,這里也暫不采用RBF進(jìn)行學(xué)習(xí)),由前可知輸入層節(jié)點(diǎn)數(shù)為14,因?yàn)橛?類應(yīng)用,輸出層節(jié)點(diǎn)為7,即對每一個(gè)流量組,輸出7個(gè)值,分別表示該流量變化量所代表應(yīng)用的概率。考慮選擇反向傳播算法,原因是目標(biāo)函數(shù)可以實(shí)數(shù)值(決策樹一般是離散值),且對訓(xùn)練樣本的容錯(cuò)性好,訓(xùn)練完成后求值速度快。
3.??????通過檢測樣本判斷正確率。
?
訓(xùn)練完成得到4個(gè)矩陣,分別是:
l? 輸入層到隱含層的權(quán)重矩陣;
l? 隱含層到輸出層的權(quán)值矩陣;
l? 隱含層的閾值矩陣;
l? 輸出接點(diǎn)的閾值矩陣;
?
對訓(xùn)練出來的權(quán)重矩陣,輸入測試樣本,即可得到一個(gè)六元組<x1,x2,x3,x4,x5,x6,x7>,每個(gè)元素表示對應(yīng)應(yīng)用標(biāo)簽的計(jì)算值,如果為1,表示樣本匹配該應(yīng)用,如果為0,表示樣本不匹配該應(yīng)用?,F(xiàn)在將測試樣本帶入進(jìn)行計(jì)算,以檢測上面訓(xùn)練結(jié)果的準(zhǔn)確度。對樣本輸出進(jìn)行如下轉(zhuǎn)換,取每列中的最大值為1,其余設(shè)為0。然后再和測試樣本的標(biāo)簽對比,計(jì)算神經(jīng)網(wǎng)絡(luò)預(yù)測的準(zhǔn)確率。計(jì)算公式為match_ratio=1-預(yù)測錯(cuò)誤個(gè)數(shù)/總預(yù)測個(gè)數(shù),平均準(zhǔn)確率為83%,最高準(zhǔn)確率有90%,說明在單一應(yīng)用的條件下,使用該模型對應(yīng)用標(biāo)簽計(jì)算的準(zhǔn)確率較高。
改進(jìn)的BP算法:上述算法里權(quán)值矩陣、閾值矩陣的初值均是隨機(jī)的。如果把之前訓(xùn)練中,挑出準(zhǔn)確率最高的網(wǎng)絡(luò)的權(quán)值矩陣、閾值矩陣拿來做初值,那么是否訓(xùn)練更快、更好。具體的,第二次訓(xùn)練開始,在之前訓(xùn)練的網(wǎng)絡(luò)中儲(chǔ)存準(zhǔn)確率最佳的網(wǎng)絡(luò),并將此網(wǎng)絡(luò)的權(quán)值閾值作為新訓(xùn)練網(wǎng)絡(luò)的初值。實(shí)踐結(jié)果:單一采樣平均可以從80%提升到95%。準(zhǔn)確率有明顯提升。
下一步繼續(xù)采集樣本,和前一步不同的是,采樣時(shí)運(yùn)行多個(gè)應(yīng)用,即樣本標(biāo)簽中有多個(gè)1,比如同時(shí)運(yùn)行web和video,對應(yīng)標(biāo)簽為<1,0,1,0,0,0,0>,?;旌喜蓸幼罱K得到254個(gè)樣本,按4:1的比例拆分為訓(xùn)練樣本和測試樣本,訓(xùn)練完成后,對測試樣本進(jìn)行預(yù)測,預(yù)測前先進(jìn)行預(yù)處理,即結(jié)果中每列中大于0.5的值設(shè)為1,其余的設(shè)為0。比如<0.1,0.9,0,0,0,0,0>經(jīng)過預(yù)處理變?yōu)?lt;0,1,0,0,0,0,0>。這樣就使得標(biāo)簽里全部是非0即1的數(shù)值。
接下來將處理后的標(biāo)簽與測試樣本的標(biāo)簽作對比,計(jì)算神經(jīng)網(wǎng)絡(luò)預(yù)測的準(zhǔn)確率?;祀s應(yīng)用準(zhǔn)確率具體計(jì)算方法是:按標(biāo)簽中應(yīng)用的命中率來計(jì)算,也就是檢查標(biāo)簽中為1的有幾個(gè)預(yù)測正確,幾個(gè)錯(cuò)誤,將(正確的數(shù)/應(yīng)用總數(shù))視為準(zhǔn)確率。比如,測試標(biāo)簽為<0,1,1,1,0,0,0>,而計(jì)算出來的標(biāo)簽是<1,1,1,0,0,0,1>,則這里應(yīng)用總數(shù)為3,預(yù)測準(zhǔn)確的應(yīng)用為第二個(gè)和第三個(gè),故正確數(shù)為2,最終計(jì)算出準(zhǔn)確率為(2/3)=66%
通過以上方法采樣訓(xùn)練得到,混雜應(yīng)用的平均準(zhǔn)確率為76%,最高值83%。
針對混雜采樣加入后,準(zhǔn)確率降低的原因分析:不同應(yīng)用數(shù)據(jù)流量混雜在一起,無法突出應(yīng)用特征,比如報(bào)文長度大的流量掩蓋掉報(bào)文長度小的,若干個(gè)長度較小報(bào)文的字節(jié)總數(shù)疊加等于一個(gè)報(bào)文長度大的。
?
由于單一識(shí)別準(zhǔn)確率較高,考慮利用sflow采樣特征,即sflow對每個(gè)報(bào)文采樣提供了源mac、目的mac、源ip、目的ip、源端口、目的端口、報(bào)文長度這些信息,將采樣的數(shù)據(jù)按目的端口分類,目的端口相同的歸到一類,這一類視為一種應(yīng)用,然后根據(jù)報(bào)文長度生成數(shù)據(jù)采樣中的樣本形式(這里有個(gè)要求,需要同一目的端口的報(bào)文大于某個(gè)閾值,否則不能很好的模擬出樣本形式),并用單一應(yīng)用訓(xùn)練出來的網(wǎng)絡(luò)進(jìn)行識(shí)別,最后將所有識(shí)別出來的應(yīng)用按比例合并。
比如,sflow采樣到目標(biāo)端口為6633的報(bào)文有11個(gè)(可能mac地址和ip地址不同),將這11個(gè)報(bào)文的長度按[64,128,256,512,1024]為界統(tǒng)計(jì)個(gè)數(shù),然后模擬出前面數(shù)據(jù)采樣的比例:"99 0 0 99 0 0 0 3 0 8 0 0 214 214",該序列中前6項(xiàng),即單播廣播組播比例暫時(shí)按固定值輸入,最后兩項(xiàng)報(bào)文平均長度按采樣報(bào)文長度和/采樣報(bào)文個(gè)數(shù)來算,出入方向相同。最后將該序列作為輸入,放到單一網(wǎng)絡(luò)中計(jì)算,得到
0.0???? 1.0????0.0???? 0.0???? 0.0????0.0???? 0.0,
即預(yù)測該流應(yīng)用是office。如果出現(xiàn)一個(gè)以上非0值,則取最大為1,其他為0。按此方法,對采樣個(gè)數(shù)大于某閾值(暫定1個(gè))的流進(jìn)行計(jì)算,得到一個(gè)應(yīng)用向量列表,再按流中報(bào)文個(gè)數(shù)比例求和,得到總的應(yīng)用比例。以下是3次采樣統(tǒng)計(jì)的應(yīng)用比例
Web | Office | Video | game | Voip | Download | sns |
35.73 | 0.48 | 21.1 | 0.0 | 3.84 | 23.5 | 15.35 |
41.23 | 0.0 | 9.94 | 0.42 | 14.38 | 30.87 | 3.17 |
32.75 | 0.0 | 13.63 | 0.0 | 5.05 | 30.11 | 18.46 |
?
由于sflow采樣是在匯聚交換機(jī)上進(jìn)行,而非接入交換機(jī)所以這部分?jǐn)?shù)據(jù)沒有標(biāo)簽,無法進(jìn)行準(zhǔn)確率計(jì)算,只能根據(jù)人工判斷。從比例結(jié)果中看,office和video這2類應(yīng)用比例和實(shí)際情況出入較大,其他類型的應(yīng)用較符合實(shí)際情況。
通過試驗(yàn),sflow采樣流中有68%可以根據(jù)端口號(hào)來進(jìn)行應(yīng)用分類,剩下32%根據(jù)神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,理論準(zhǔn)確率為68%+32%×0.90=96%,即為采樣中流的應(yīng)用分類準(zhǔn)確率。因?yàn)?/span>sflow默認(rèn)采樣是1:8192,所以這里只能判斷出現(xiàn)哪些應(yīng)用,而不能判斷有哪些應(yīng)用遺漏。改進(jìn)方法:延長采樣時(shí)間,即應(yīng)用分類重點(diǎn)是反映終端用戶穩(wěn)定使用網(wǎng)絡(luò)服務(wù)的情況,不考慮某些短時(shí)間(比如5分鐘)或者臨時(shí)應(yīng)用(偶爾使用一次)。
為了提升準(zhǔn)確率,還添加了一些額外的判斷策略。知名端口除了可以用來判斷應(yīng)用類型,也可以用來判斷不是哪些應(yīng)用類型。例如80端口不可能是voip。Sflow中采樣的IP地址如果源地址和目的地址都是局域網(wǎng)地址,則應(yīng)用類型不會(huì)為game。
?
實(shí)際準(zhǔn)確率計(jì)算方法:將該算法部署在實(shí)際網(wǎng)絡(luò)中,對每個(gè)終端用戶應(yīng)用計(jì)算,如果終端用戶在運(yùn)行4個(gè)應(yīng)用,算法計(jì)算匹配3個(gè),則準(zhǔn)確率為3/4=75%。
驗(yàn)證
目標(biāo)地址識(shí)別
不同終端即使在使用相同的應(yīng)用,其應(yīng)用的目標(biāo)地址也可能不同,例如訪問國內(nèi)視頻網(wǎng)站和國外視頻網(wǎng)站,使用HTTP下載和使用P2P下載。所以可能瀏覽網(wǎng)頁A速度快,體驗(yàn)分?jǐn)?shù)高,而相同網(wǎng)絡(luò)環(huán)境下瀏覽網(wǎng)頁B速度慢,體驗(yàn)分?jǐn)?shù)低。所以如果能識(shí)別出終端應(yīng)用具體的目標(biāo)地址,可以更精確的度量出網(wǎng)絡(luò)體驗(yàn)值。
考慮幾種報(bào)文采樣方案:鏡像功能需要專門網(wǎng)絡(luò)分析儀接到設(shè)備端,且完全鏡像數(shù)據(jù)量太大。IPFIX只在高端交換機(jī)上支持,因此目前考慮的方案是sflow,通過間隔采樣,在收集器主機(jī)上捕捉sflow報(bào)文并解析內(nèi)容。具體方法是在設(shè)備端使能sflow采樣,在設(shè)備端使用wireshark命令行工具監(jiān)聽sflow端口捕捉并解析sflow報(bào)文。為了不影響設(shè)備端性能,sflow采樣間隔不能過于頻繁,默認(rèn)值是8192個(gè)報(bào)文采樣一個(gè)。
識(shí)別報(bào)文的目標(biāo)地址后,下一步就是識(shí)別出該報(bào)文的應(yīng)用。由于sflow采樣只提供了報(bào)文頭部,其包含信息有MAC地址,IP地址,協(xié)議類型,端口號(hào),報(bào)文長度,而目前應(yīng)用識(shí)別則主要依賴報(bào)文負(fù)載內(nèi)容解析,所以只能根據(jù)協(xié)議類型、端口號(hào)、報(bào)文長度這幾個(gè)信息來做有限的推測。
???????? 某些應(yīng)用可以根據(jù)知名端口來判斷,比如郵件、遠(yuǎn)程登錄等辦公應(yīng)用,而web、下載或視頻則可能都使用80端口來進(jìn)行。
總結(jié)
以上是生活随笔為你收集整理的使用机器学习来进行应用识别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乐高太多没处放?解放女朋友双手,1 个顶
- 下一篇: Tensorflow移动端之如何将自己训