《大数据》2015年第2期“研究”——大数据时代的数据传输网
大數(shù)據(jù)時(shí)代的數(shù)據(jù)傳輸網(wǎng)
孫衛(wèi)強(qiáng),胡衛(wèi)生
上海交通大學(xué)區(qū)域光纖通信網(wǎng)與先進(jìn)光通信系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室 上海 200240
摘要:大數(shù)據(jù)時(shí)代數(shù)據(jù)傳輸需求呈爆炸式增長(zhǎng),如何充分利用數(shù)據(jù)流的新特征,發(fā)揮不同交換方式的優(yōu)勢(shì),是解決未來(lái)大數(shù)據(jù)傳輸?shù)谋赜芍贰榇?#xff0c;介紹了大數(shù)據(jù)傳輸在容量和能耗方面的挑戰(zhàn),并結(jié)合數(shù)據(jù)流的新特征,分析網(wǎng)絡(luò)技術(shù)發(fā)展的新機(jī)遇。然后,回顧了近幾年相關(guān)領(lǐng)域的研究進(jìn)展,并簡(jiǎn)要介紹了筆者在混合交換和存儲(chǔ)轉(zhuǎn)發(fā)等方面正在開(kāi)展的研究工作。
關(guān)鍵詞:大數(shù)據(jù)網(wǎng)絡(luò);電路/分組混合交換;存儲(chǔ)轉(zhuǎn)發(fā);數(shù)據(jù)中心
doi: 10.11959/j.issn.2096-0271.2015019
Networking Challenges in the Big Data Era
Sun Weiqiang, Hu Weisheng
State Key Lab of Advanced Optical Communication Systems and
Networks,Shanghai Jiao Tong University, Shanghai 200240, China
Abstract:Explosive growth of traffic demand both inside and between data centers has resulted in a new wave of cutting edge research in the networking community. Inter-and Intra-data center research problems were identified and various solutions aiming to reduce networking cost or increase energy efficiency have been investigated. The growth in traffic demand in the big data era was accompanied by distinct characteristics in flow size distribution and delay tolerance. Data volume was dominated by large flows that are very few in number, and such flows are typically delay tolerant. How these characteristics may be used to tackle the challenge was discussed, followed by our recent work in big data transmission. The BLOC (blocking loss curve) framework aims to provide a framework with which hybrid switching systems combining packet and circuit switching can be studied. The time-shifted multi-layer graph is a generic tool that can be used to analyze the performance of circuit switched networks with bulk storage.
Key words:big data networking, hybrid circuit/packet switching, store and forward, data center
1 引言
以互聯(lián)網(wǎng)為代表的“信息高速公路” 計(jì)劃發(fā)展20年來(lái),人、機(jī)、物三元世界高度融合,顛覆了人類(lèi)的生產(chǎn)生活方式,引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng)。鄔賀銓院士在《求是》雜志的載文中指出[1],1998年全球網(wǎng)民平均每月使用流量是1 MB,2000年是10 MB,2003年是100 MB,2008年是1 GB(1 GB等于1 024 MB),2014年預(yù)計(jì)達(dá)到10 GB。全網(wǎng)流量累計(jì)達(dá)到1 EB(即1 024 PB)的時(shí)間在2001年是一年,在2004年是一個(gè)月,在2007年是一周,而在2013年僅需一天。我國(guó)網(wǎng)民數(shù)居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。總之,大數(shù)據(jù)存在于各行各業(yè),一個(gè)大數(shù)據(jù)時(shí)代正在到來(lái)[1]。
據(jù)預(yù)測(cè),未來(lái)10年全球數(shù)據(jù)將增加50倍,對(duì)數(shù)據(jù)進(jìn)行處理分析的服務(wù)器數(shù)量將增加10倍。對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、處理和傳輸,對(duì)網(wǎng)絡(luò)基礎(chǔ)設(shè)施提出了前所未有的高要求[2]。據(jù)預(yù)測(cè),未來(lái)幾年內(nèi),數(shù)據(jù)中心之間的流量將以每年34%的速度增長(zhǎng),到2015年達(dá)到1 ZB。在網(wǎng)絡(luò)基礎(chǔ)設(shè)施的建設(shè)中,數(shù)據(jù)中心之間網(wǎng)絡(luò)的成本占主導(dǎo)地位[3]。增加網(wǎng)絡(luò)節(jié)點(diǎn)交換容量,提高網(wǎng)絡(luò)資源利用效率成為大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)技術(shù)面臨的最大挑戰(zhàn)。一個(gè)典型的例子,是作為世界上最大的基因研究所華大基因(BGI),目前仍然依賴(lài)傳統(tǒng)郵寄的方式,而不是網(wǎng)絡(luò)傳輸?shù)姆绞絹?lái)傳遞數(shù)據(jù)[4,5]。這是因?yàn)槟壳暗木W(wǎng)絡(luò)體制是從電信時(shí)代建立起來(lái)的,無(wú)法提供大數(shù)據(jù)時(shí)代的大容量高效傳輸,成為大數(shù)據(jù)應(yīng)用快速發(fā)展的一個(gè)瓶頸。
在數(shù)據(jù)量爆炸式增長(zhǎng)的同時(shí),由數(shù)據(jù)交換和傳輸所造成的能源消耗也在不斷增加。據(jù)統(tǒng)計(jì),2006年僅在美國(guó),數(shù)據(jù)中心中網(wǎng)絡(luò)設(shè)備一年所消耗的電能為30億千瓦,并且這個(gè)數(shù)字在快速地攀升[6]。到2010年,數(shù)據(jù)中心所消耗的電能占全球總電能消耗的1.3%,在美國(guó),這個(gè)數(shù)字為2%[7]。在電交換方式下,如果接口速率從目前的10 Gbit/s 升級(jí)到40 Gbit/s,則網(wǎng)絡(luò)節(jié)點(diǎn)接口和交換矩陣能耗將在目前的基礎(chǔ)上翻番[8]。以電分組交換(IP)為基礎(chǔ)的網(wǎng)絡(luò)技術(shù)從能耗上來(lái)說(shuō)缺乏大規(guī)模擴(kuò)展的可能性,難以滿(mǎn)足大數(shù)據(jù)時(shí)代數(shù)據(jù)中心內(nèi)部和數(shù)據(jù)中心之間的交換和傳輸?shù)男枰?#xff0c;而依靠光電路交換技術(shù)來(lái)提供大數(shù)據(jù)流的動(dòng)態(tài)彈性大管道,與IP一起構(gòu)成跨層的聯(lián)合交換體制,使大量的小數(shù)據(jù)流盡可能用IP處理,少量的大數(shù)據(jù)塊盡可能用光交換處理,這樣才有可能將數(shù)據(jù)流的傳輸能耗降下來(lái)。
2 大數(shù)據(jù)時(shí)代數(shù)據(jù)流的傳輸特征和網(wǎng)絡(luò)發(fā)展機(jī)遇
研究表明,大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)數(shù)據(jù)流的分布出現(xiàn)了新的特征,少量的巨塊數(shù)據(jù)消耗了大部分網(wǎng)絡(luò)帶寬,如同“寡頭”侵占了大量資源。在一個(gè)典型的數(shù)據(jù)中心網(wǎng)絡(luò)中,以交互性強(qiáng)的信息為主的短流(數(shù)KB,稱(chēng)為老鼠流)數(shù)量上占90%以上,但流量上卻不足10%。長(zhǎng)流(100 MB~1 GB,稱(chēng)為大象流)在數(shù)量上只占10 %以下,但流量上卻占90 %以上,并且其中大部分100 MB左右的數(shù)據(jù)流是由大文件切割而來(lái)的,實(shí)際的數(shù)據(jù)流達(dá)到GB級(jí)甚至TB級(jí)之巨,相當(dāng)于大數(shù)據(jù)“寡頭”,數(shù)據(jù)流的兩極分化在快速拉大[9],如圖1所示。顯然,利用現(xiàn)有的方式將占主體的大象流打包并進(jìn)行逐跳(per-hop)處理,網(wǎng)絡(luò)數(shù)據(jù)的傳輸效率必然十分低下,相應(yīng)的能源消耗也非常高,與可持續(xù)發(fā)展策略相違背。與此同時(shí),大象流和老鼠流之間的資源競(jìng)爭(zhēng),也使得在網(wǎng)絡(luò)瓶頸鏈路上老鼠流難以獲得足夠的帶寬,各種豐富多樣的交互式應(yīng)用的體驗(yàn)難以得到保證[10]。
圖1 數(shù)量較少的巨塊數(shù)據(jù)消耗了大部分網(wǎng)絡(luò)帶寬
另一方面,以基因研究、腦科學(xué)、高能物理、大科學(xué)計(jì)算和數(shù)據(jù)中心之間數(shù)據(jù)同步等為代表的海量數(shù)據(jù)傳輸需求,都有一個(gè)共同的特征,就是對(duì)數(shù)據(jù)整體的遞送時(shí)延要求較為寬松,如圖2所示。此類(lèi)數(shù)據(jù)通常不要求傳輸開(kāi)始的時(shí)間,但要求全部數(shù)據(jù)流最后送達(dá)的時(shí)間,并且要求整個(gè)數(shù)據(jù)塊的完整性[11~14]。這與網(wǎng)頁(yè)瀏覽、電子郵件、微博微信、電子商務(wù)、即時(shí)消息/音視頻等應(yīng)用要求數(shù)據(jù)被實(shí)時(shí)、即時(shí)遞送形成了鮮明對(duì)比。例如,由歐洲大型粒子對(duì)撞機(jī)產(chǎn)生的27 TB的數(shù)據(jù),需要以天為單位分發(fā)到分布于歐洲、亞洲和北美的相關(guān)研究機(jī)構(gòu)中[5]。多個(gè)數(shù)據(jù)中心之間同步和備份的流量,絕大部分來(lái)自對(duì)時(shí)延不太敏感的背景業(yè)務(wù)[9,11]。顯然,將這些對(duì)遞送時(shí)延不太敏感的海量數(shù)據(jù)按照傳統(tǒng)的方式推送到目前的網(wǎng)絡(luò)中,與對(duì)時(shí)延敏感的交互性應(yīng)用爭(zhēng)搶網(wǎng)絡(luò)資源,一方面會(huì)極大地影響交互式應(yīng)用的體驗(yàn),另一方面對(duì)大數(shù)據(jù)應(yīng)用本身也幫助有限[10],還會(huì)降低網(wǎng)絡(luò)的穩(wěn)定性和可靠性[15]。
圖2 巨塊數(shù)據(jù)對(duì)遞送時(shí)延不敏感
大數(shù)據(jù)流的以上新特征要求網(wǎng)絡(luò)在能夠處理傳統(tǒng)短小數(shù)據(jù)流的同時(shí),用更為簡(jiǎn)化的網(wǎng)絡(luò)層次結(jié)構(gòu),綜合利用網(wǎng)絡(luò)中的交換、傳輸、存儲(chǔ)資源,有序、批量、整體地移動(dòng)巨塊數(shù)據(jù)。這樣才可能提高網(wǎng)絡(luò)資源利用效率,同時(shí)降低能耗。簡(jiǎn)而言之,深入分析大數(shù)據(jù)流巨塊和時(shí)延不敏感的顯著特征,為探索新型的傳輸機(jī)制提供了機(jī)遇。
3 大數(shù)據(jù)傳輸?shù)膽?yīng)對(duì)之道
如前所述,數(shù)據(jù)的爆炸式增長(zhǎng)對(duì)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的處理能力和能源消耗造成了很大的挑戰(zhàn)。從大數(shù)據(jù)時(shí)代數(shù)據(jù)的特征入手,對(duì)癥下藥,有效地應(yīng)對(duì)這兩個(gè)挑戰(zhàn),才能給大數(shù)據(jù)的發(fā)展提供持久、有力的支撐。下面從交換體制和網(wǎng)絡(luò)控制等方面,闡述相關(guān)的研究現(xiàn)狀和筆者在應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)方面所做的工作。
3.1 混合交換體制和BLOC(blocking loss curve)框架
分組交換和電路交換是兩種典型的數(shù)據(jù)平面交換方式。在分組交換機(jī)制下,網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)每個(gè)分組進(jìn)行處理,通過(guò)統(tǒng)計(jì)復(fù)用實(shí)現(xiàn)較高的資源利用效率,同時(shí)也使得節(jié)點(diǎn)處理較為復(fù)雜,能耗高,擴(kuò)展性差。在電路交換機(jī)制下,網(wǎng)絡(luò)節(jié)點(diǎn)通過(guò)信令機(jī)制或者管理系統(tǒng)建立或者刪除交換狀態(tài),并以端到端的電路為單元進(jìn)行處理。電路交換節(jié)點(diǎn)結(jié)構(gòu)較簡(jiǎn)單,但是由于粒度較粗,靈活性和資源利用率不及分組交換。顯然,融合分組和電路交換有助于充分發(fā)揮兩者的優(yōu)勢(shì),降低節(jié)點(diǎn)的成本和能耗[16,17]。
早在2003年,美國(guó)紐約州立大學(xué)喬春明教授[18]研究組首次提出了將光突發(fā)交換和光電路交換混合的方法,突發(fā)交換模塊負(fù)責(zé)盡力而為的較小流量,電路交換模塊負(fù)責(zé)較大流量。2005年,韓國(guó)信息通信大學(xué)Lee等人[19]進(jìn)一步從理論上計(jì)算了這種網(wǎng)絡(luò)的性能。同年,澳大利亞墨爾本大學(xué)Tucker教授研究組針對(duì)參考文獻(xiàn)[19]中模型過(guò)于復(fù)雜的問(wèn)題,進(jìn)一步提出了一種更具可擴(kuò)展性的計(jì)算模型[20]。2006年,日本東京大學(xué)Morikawa教授實(shí)驗(yàn)室提出了一種混合電路與多波長(zhǎng)光分組的混合光網(wǎng)絡(luò)架構(gòu),設(shè)計(jì)并實(shí)現(xiàn)了一種光分組交換和光電路交換混合的交換節(jié)點(diǎn)結(jié)構(gòu)原型。2008 年,比利時(shí)Ghent大學(xué)將流量分為快速與慢速兩種類(lèi)型,研究了快速與慢速混合的網(wǎng)絡(luò)性能的通用模型[21]。2013年,Raimena Veisllari在一個(gè)集成的實(shí)驗(yàn)平臺(tái)上演示了電路和分組融合交換,并實(shí)現(xiàn)了10 Gbit/s鏈路下超過(guò)99%的光路資源利用率[22]。
2010年至今,將混合交換應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò)成為研究熱點(diǎn)[23~25 ]。在這些研究中,光交換矩陣被應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò)中,旁路網(wǎng)絡(luò)中數(shù)據(jù)巨塊的交換。研究表明,對(duì)于一個(gè)中等規(guī)模的數(shù)據(jù)中心,混合交換可以將網(wǎng)絡(luò)的成本降低至原來(lái)的一半,將網(wǎng)絡(luò)能耗降低為原來(lái)的1/5。正如參考文獻(xiàn)[26~28]中指出的,合理地融合電分組和光電路交換,是實(shí)現(xiàn)未來(lái)低成本、低能耗、大規(guī)模可擴(kuò)展網(wǎng)絡(luò)的必經(jīng)之路。幾種有代表性的混合交換的工作見(jiàn)表1。
表1 有代表性的混合交換研究對(duì)比
從表1中可以看出,混合交換作為解決未來(lái)節(jié)點(diǎn)能耗和容量的方法,在各個(gè)場(chǎng)景下都有用武之地。理論上說(shuō),將更多的網(wǎng)絡(luò)流量用電路交換遞送,減少遞送過(guò)程中的復(fù)雜處理,有助于降低節(jié)點(diǎn)能耗和節(jié)點(diǎn)成本。但是也應(yīng)該注意到,由于電路交換本身有一定的開(kāi)銷(xiāo),即電路建立和刪除需要一定的時(shí)間,電路交換并不適用于交換持續(xù)時(shí)間較短的流。當(dāng)鏈路容量固定時(shí),如何合理地規(guī)劃電路交換和分組交換的容量,實(shí)現(xiàn)最小化系統(tǒng)成本、最低能耗或者最低平均交換時(shí)延和阻塞率,是一個(gè)非常復(fù)雜的問(wèn)題。
在國(guó)家自然科學(xué)基金委重點(diǎn)項(xiàng)目“多層多域網(wǎng)絡(luò)化大數(shù)據(jù)的高效傳輸理論與方法”項(xiàng)目中,為了解決混合交換網(wǎng)絡(luò)中的最優(yōu)化資源配置問(wèn)題,提出BLOC框架。BLOC框架將系統(tǒng)資源劃分和系統(tǒng)的性能結(jié)合起來(lái),可以直觀且系統(tǒng)地研究混合交換系統(tǒng)中資源分配策略及相應(yīng)的性能。圖3為以系統(tǒng)能耗為優(yōu)化目標(biāo)的BLOC示意。橫坐標(biāo)為通過(guò)分組交換遞送的流量比例,縱坐標(biāo)為分配給分組交換的資源(即鏈路資源)比例。圖3中黑色曲線(xiàn)為系統(tǒng)所能容忍的最大分組丟失率等值線(xiàn),灰色曲線(xiàn)為最大阻塞率等值線(xiàn)。兩條曲線(xiàn)所勾勒的陰影部分為帶寬資源分配的可行區(qū)。可行區(qū)里的所有點(diǎn)為既能滿(mǎn)足系統(tǒng)分組丟失率要求,又能滿(mǎn)足阻塞率要求的資源分配方法以及相應(yīng)的系統(tǒng)性能。圖3中兩條曲線(xiàn)交點(diǎn)為最優(yōu)化資源分配點(diǎn),在該點(diǎn)系統(tǒng)盡最大可能把資源分配給電路交換,因此可以實(shí)現(xiàn)系統(tǒng)能耗的最小化。
圖 3 BLOC框架示意
BLOC框架有非常廣泛的用途。例如,通過(guò)獲得系統(tǒng)平均時(shí)延與流量分配和資源分配的關(guān)系,可以獲得以最優(yōu)化平均時(shí)延為目標(biāo)時(shí),系統(tǒng)的資源劃分策略。
3.2 大數(shù)據(jù)的存儲(chǔ)轉(zhuǎn)發(fā)和時(shí)移多層圖
目前,互聯(lián)網(wǎng)對(duì)于數(shù)據(jù)處理的基本方式是,數(shù)據(jù)自應(yīng)用產(chǎn)生后被分組化(packetize)并推送到網(wǎng)絡(luò),隨后被網(wǎng)絡(luò)以“盡力服務(wù)”的方式遞送到目的地。在整個(gè)過(guò)程中,數(shù)據(jù)分組會(huì)與來(lái)自其他數(shù)據(jù)源的分組共享和競(jìng)爭(zhēng)網(wǎng)絡(luò)資源。由于網(wǎng)絡(luò)狀況的差異和變化,同一數(shù)據(jù)源/宿之間完成相同數(shù)據(jù)量的遞送可能需要不同的時(shí)間,在網(wǎng)絡(luò)發(fā)生擁塞時(shí),這種差別會(huì)更為明顯。在以交互式應(yīng)用產(chǎn)生的老鼠流占網(wǎng)絡(luò)數(shù)據(jù)主體的情況下,網(wǎng)絡(luò)擁塞偶爾發(fā)生。在終端傳輸層協(xié)議的配合下,網(wǎng)絡(luò)可以迅速?gòu)膿砣麪顟B(tài)中恢復(fù),網(wǎng)絡(luò)行為較為穩(wěn)定可控,網(wǎng)絡(luò)可以及時(shí)地將數(shù)據(jù)遞送到目的地。但是,隨著網(wǎng)絡(luò)中大象流所占的比重增加,大象流和老鼠流之間的帶寬競(jìng)爭(zhēng)變得日益激烈,嚴(yán)重的網(wǎng)絡(luò)擁塞將頻繁發(fā)生[15]。
這一問(wèn)題引發(fā)了大量在網(wǎng)絡(luò)中限制大象流的研究,典型方法是引入侵入式的流控系統(tǒng)(例如深度分組檢測(cè)(DPI))[15,31]。同時(shí),也促使研究人員重新審視網(wǎng)絡(luò)數(shù)據(jù)的特征,探索更為合理的數(shù)據(jù)遞送機(jī)制來(lái)應(yīng)對(duì)越來(lái)越多的大象流對(duì)網(wǎng)絡(luò)造成的沖擊。如前所述,不管是數(shù)據(jù)中心備份和同步導(dǎo)致的GB量級(jí)的數(shù)據(jù),還是大型科學(xué)計(jì)算產(chǎn)生的TB量級(jí)的數(shù)據(jù),對(duì)遞送期限的要求與傳統(tǒng)交互式的應(yīng)用相比有明顯放寬。
在一個(gè)較早的工作中,David Breitgand 等人提出利用主動(dòng)網(wǎng)絡(luò)機(jī)制,將占用帶寬較多、優(yōu)先級(jí)較低的業(yè)務(wù)在網(wǎng)絡(luò)中進(jìn)行暫存(區(qū)別于緩存),減少它們和高優(yōu)先級(jí)業(yè)務(wù)之間的資源競(jìng)爭(zhēng)。結(jié)果表明,這種做法可以有效地提高網(wǎng)絡(luò)的有效遞送效率(goodput)[32]。Nikolaos Laoutaris等人將這類(lèi)數(shù)據(jù)稱(chēng)為時(shí)延不敏感的巨塊數(shù)據(jù)(delay tolerant bulkdata),并針對(duì)這種時(shí)延不敏感性,提出利用網(wǎng)絡(luò)閑時(shí)帶寬進(jìn)行數(shù)據(jù)傳輸。這種方法可以在不增加成本的前提下,在現(xiàn)有網(wǎng)絡(luò)上完成每天TB數(shù)據(jù)量的傳輸[11,12]。基于遞送期限的研究工作還見(jiàn)于參考文獻(xiàn)[33~35]。
這個(gè)問(wèn)題在基于電路交換的光網(wǎng)絡(luò)或者電網(wǎng)絡(luò)中同樣得到了關(guān)注。在參考文獻(xiàn)[36]中,Hiroyuki Miyagi等人提出按照遞送截止時(shí)間的不同,為請(qǐng)求分配不同數(shù)量的時(shí)隙,從而降低系統(tǒng)的阻塞率。Dragos Andrei等人將波長(zhǎng)網(wǎng)絡(luò)中帶截止時(shí)間的請(qǐng)求(deadline drivenrequest, DDR)服務(wù)問(wèn)題描述為一個(gè)混合整數(shù)線(xiàn)性規(guī)劃問(wèn)題,并提出了啟發(fā)式的算法,高效地解決其中的選路和傳輸速率分配問(wèn)題,結(jié)果表明具有電交換的不透明網(wǎng)絡(luò)節(jié)點(diǎn)具有更好的服務(wù)能力[37]。在參考文獻(xiàn)[38]中,作者較為系統(tǒng)地研究了在新型的靈活柵格(flexi-grid)網(wǎng)絡(luò)中DDR的優(yōu)化調(diào)度服務(wù)問(wèn)題,結(jié)果顯示動(dòng)態(tài)調(diào)整請(qǐng)求的服務(wù)速率有助于提高網(wǎng)絡(luò)性能和資源利用率。
簡(jiǎn)而言之,大數(shù)據(jù)塊具有不同的截止時(shí)間要求,實(shí)質(zhì)上是給網(wǎng)絡(luò)資源分配和調(diào)度提供了一個(gè)新的空間,在節(jié)點(diǎn)中引入暫存,實(shí)質(zhì)上是給網(wǎng)絡(luò)資源分配和調(diào)度提供了一個(gè)新的維度。在鏈路資源給定的情況下,充分利用數(shù)據(jù)塊請(qǐng)求截止時(shí)間的差異,可以顯著提高網(wǎng)絡(luò)的平均資源利用率和網(wǎng)絡(luò)的遞送能力。
存儲(chǔ)的引入給網(wǎng)絡(luò)資源調(diào)度帶來(lái)了新的維度,讓這個(gè)本來(lái)就很復(fù)雜的問(wèn)題變得更為困難。為此,在國(guó)家自然科學(xué)基金委重點(diǎn)項(xiàng)目“多層多域網(wǎng)絡(luò)化大數(shù)據(jù)的高效傳輸理論與方法”中,提出時(shí)移多層圖(time shiftedmulti-layer graph,TS-MLG)的概念。時(shí)移多層圖的基本思想是將網(wǎng)絡(luò)資源的變化通過(guò)快照的方式記錄下來(lái),并通過(guò)連接不同快照(即不同層)之間對(duì)應(yīng)的“時(shí)間”鏈路(即temporal link,有別于傳統(tǒng)網(wǎng)絡(luò)拓?fù)渲械目臻g鏈路(即spatial link)),構(gòu)成一個(gè)網(wǎng)絡(luò)資源增量變化的多層拓?fù)鋱D結(jié)構(gòu),如圖4所示。數(shù)據(jù)流在網(wǎng)絡(luò)節(jié)點(diǎn)之間的傳輸和在節(jié)點(diǎn)上的存儲(chǔ),可以通過(guò)在多層圖上運(yùn)行傳統(tǒng)的路由協(xié)議解決。換句話(huà)說(shuō),時(shí)移多層圖將一個(gè)時(shí)間和空間聯(lián)合調(diào)度的問(wèn)題,變成了一個(gè)簡(jiǎn)單的路由問(wèn)題。
很顯然,因?yàn)閷訑?shù)變多,計(jì)算的復(fù)雜度因此增加。研究結(jié)果表明,即便在較高的業(yè)務(wù)負(fù)載下,幾乎所有的請(qǐng)求都可以在21層的圖中找到合適的路徑。此外,在網(wǎng)絡(luò)具有較輕負(fù)載時(shí),絕大多數(shù)請(qǐng)求都可以在幾層內(nèi)即可完成路由選擇。應(yīng)用可以按照網(wǎng)絡(luò)對(duì)阻塞率的要求和控制平面的計(jì)算能力,選取合適的層數(shù)來(lái)達(dá)到計(jì)算復(fù)雜度和網(wǎng)絡(luò)性能的折中。時(shí)移多層圖提供了一個(gè)研究存儲(chǔ)轉(zhuǎn)發(fā)光網(wǎng)絡(luò)的通用框架,將對(duì)大家認(rèn)識(shí)此類(lèi)網(wǎng)絡(luò)的特性,優(yōu)化網(wǎng)絡(luò)帶寬資源和存儲(chǔ)資源的設(shè)計(jì),帶來(lái)非常重要的影響。
3.3 軟件定義和多層網(wǎng)絡(luò)控制
近幾年,數(shù)據(jù)傳輸需求和網(wǎng)絡(luò)之間的矛盾集中地體現(xiàn)在數(shù)據(jù)中心網(wǎng)絡(luò)中。隨著數(shù)據(jù)中心在全球各地的建設(shè)和其規(guī)模的不斷擴(kuò)大,數(shù)據(jù)中心內(nèi)部和多個(gè)數(shù)據(jù)中心之間的數(shù)據(jù)傳輸交換需求越來(lái)越高,網(wǎng)絡(luò)規(guī)模越來(lái)越大。日益突出的網(wǎng)絡(luò)資源管理和服務(wù)質(zhì)量的問(wèn)題讓人們開(kāi)始重新思考網(wǎng)絡(luò)中資源的分配和管理機(jī)制,軟件定義網(wǎng)絡(luò)(software definednetworking,SDN)在這種背景下誕生了。SDN基本思想是,通過(guò)標(biāo)準(zhǔn)化的開(kāi)放接口把網(wǎng)絡(luò)節(jié)點(diǎn)的配置能力開(kāi)放出來(lái),并用集中式的控制器對(duì)網(wǎng)絡(luò)資源進(jìn)行管理和控制。SDN打破了分布式自治的網(wǎng)絡(luò)資源管理思想,為運(yùn)營(yíng)商、網(wǎng)絡(luò)用戶(hù),甚至大數(shù)據(jù)量的應(yīng)用更方便地管理和使用網(wǎng)絡(luò)資源創(chuàng)造了條件,降低網(wǎng)絡(luò)管理復(fù)雜度,提高網(wǎng)絡(luò)資源利用率,促進(jìn)創(chuàng)新應(yīng)用的發(fā)展[39]。
OpenFlow作為實(shí)現(xiàn)SDN的一種很有競(jìng)爭(zhēng)力的技術(shù),在近幾年得到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。OpenFlow將網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)據(jù)平面抽象為流表,并以流作為決策和控制的對(duì)象[40]。由前面的討論可以看出,在大數(shù)據(jù)流的背景下,這種基于流的資源管理機(jī)制可以有效地提升節(jié)點(diǎn)資源的管理效率。OpenFlow對(duì)流的定義較為靈活,可以將傳統(tǒng)分組網(wǎng)絡(luò)中的五元組作為定義流的依據(jù),也可以將電路交換網(wǎng)絡(luò)中的電路標(biāo)識(shí)作為依據(jù)。因此,OpenFlow事實(shí)上為分組交換網(wǎng)絡(luò)和電路交換網(wǎng)絡(luò)的融合創(chuàng)造了一定的條件[41,42]。在傳送網(wǎng)領(lǐng)域,華為技術(shù)有限公司、Verizon公司等提出軟件定義光傳送網(wǎng)(SDN-OTN),具備彈性管道、即時(shí)帶寬、編程光網(wǎng)三大特性,可以滿(mǎn)足未來(lái)不同業(yè)務(wù)快速部署、帶寬按需分配、易于運(yùn)維等要求[43]。流交換的思想使得不同交換技術(shù)、不同網(wǎng)絡(luò)層次的資源在流層得以抽象和統(tǒng)一。這使得OpenFlow/SDN成為多層[41]和多域網(wǎng)絡(luò)[42]控制平面很有競(jìng)爭(zhēng)力的選擇。
回顧前面幾部分的討論也可以發(fā)現(xiàn),SDN 事實(shí)上繼承了20世紀(jì)將集中式資源管理應(yīng)用在大科學(xué)計(jì)算中的思想,是在大數(shù)據(jù)傳輸需求推動(dòng)下的必然產(chǎn)物。OpenFlow/ SDN作為新型的控制平面技術(shù),將有助于緩解大數(shù)據(jù)對(duì)網(wǎng)絡(luò)管理帶來(lái)的困難,成為多層和多域網(wǎng)絡(luò)的控制平面的優(yōu)選方案。
4 結(jié)束語(yǔ)
大數(shù)據(jù)傳輸既是挑戰(zhàn),更是網(wǎng)絡(luò)技術(shù)發(fā)展的機(jī)遇。毋庸置疑,大數(shù)據(jù)時(shí)代的數(shù)據(jù)流特征將在未來(lái)幾年內(nèi)變得日益顯著,也將成為推動(dòng)網(wǎng)絡(luò)技術(shù)創(chuàng)新的重要源動(dòng)力。單純?nèi)萘康奶嵘y以滿(mǎn)足業(yè)務(wù)量爆炸式增加的需求。如何充分利用數(shù)據(jù)流的新特征,發(fā)揮不同交換方式的優(yōu)勢(shì),是解決未來(lái)大數(shù)據(jù)傳輸?shù)谋赜芍贰T?jīng)風(fēng)靡一時(shí)的全分組化的思潮,極有可能在大數(shù)據(jù)的沖擊下被淘汰。在這個(gè)過(guò)程中,節(jié)點(diǎn)設(shè)備的能耗和其制造成本一樣,也將成為結(jié)構(gòu)設(shè)計(jì)的重要限制因素。軟件定義網(wǎng)絡(luò)的思想讓網(wǎng)絡(luò)管理變得更直觀,也讓網(wǎng)絡(luò)重構(gòu)和業(yè)務(wù)開(kāi)展變得容易。但是,目前的設(shè)計(jì)思想距離真正的軟件定義還有很大的距離。如何最大限度地消除應(yīng)用需求和網(wǎng)絡(luò)資源提供之間的鴻溝,讓軟件或者應(yīng)用理解網(wǎng)絡(luò)且不失擴(kuò)展性,還有很長(zhǎng)的路要走。
參考文獻(xiàn)
[1] 鄔賀銓. 大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn). 求是, 2013(4)
Wu H Q. Opportunities and challenges in the era ofbig data. Qiushi, 2013(4)
[2] Robinson S, Ferguson R. The storage and transferchallenges of big data. MIT Sloan Management Review, 7 June, 2012
[3] Greenberg A, Hamilton J, Maltz D A, et al. The cost of a cloud: researchproblems in data center networks. ACM SIGCOMM Computer Communication Review,2009, 39(1): 68~73
[4] 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)發(fā)展的重大戰(zhàn)略領(lǐng)域. 中國(guó)科學(xué)院院刊, 2012, 27(6): 647~657
Li G J, Cheng X Q. Research status and scientificthinking of big data. Bulletin of Chinese Academy of Sciences, 2012, 27(6):647~657
[5] Pollack A. DNA sequencing caught in deluge ofdata. The New York Times, 12 August, 2011
[6] Heller B, Seetharaman S, Mahadevan P, et al. ElasticTree: saving energy indata center networks. Proceedings of the 7th USENIX Conference on Networked SystemsDesign and Implementation (NSDI), San Jose, USA, 2010
[7] Koomey J . Growth in Data Center Electricity Use2005 to 2010. Oakland: Analytics Press, 2011
[8] Davis A, Jouppi N P, Mclaren M, et al. The roleof photonics in future datacenter networks. Optical Interconnects for Future DataCenter Networks, 2013: 67~93
[9] Chen Y, Jain S, Adhikari V K, et al. A first look at inter-data centertraffic characteristics via yahoo! datasets. Proceedings of IEEE IN FOCOM , Shanghai,China, 2011: 1620 ~1628
[10] Briscoe B. A fairer, faster internet. IEEESpectrum, 2008, 45(12): 42~47
[11] Laoutaris N, Smaragdakis G, Stanojevic R, et al. Delay-tolerant bulk datatransfers on the Internet. IEEE/ACM Transactions on Networking, 2013, 21(6):1852~1865
[12] Laoutaris N, Sirivianos M, Yang X, et al. Inter- datacenter bulk transferswith netstitcher. ACM SIGCOMM Computer Communication Review, 2011, 41(4 ):74~85
[13] Mahimkar A, Chiu A, Doverspike, et al. Bandwidth on demand for inter-datacenter communication. Proceedings of the 10th ACM Workshop on Hot Topics inNetworks (Hotnets 2011), New York, NY, USA, 2011
[14] Feng Y, Li B, Li B. Postcard: minimizing costson inter-datacenter traffic with store-and -forward. Proceedings of the 32nd InternationlConference on Distributed Computing Systems Workshops ( ICDC SW), Macau, China,2012
[15] Handley M. Network neutrality and the I ETF.Plenary Presentation on I ETF, 2009: 3~4
[16] Liou C. Next-generation inter-data centernetworking, special symposia 2: next generation data centres - paving the wayfor the Zettabyte era. Proceedings of European Conference and Exhibition onOptical Communication (ECOC), London, UK, 2013
[17] Ferna?ndez- Palacios J P, Perez L , Rodriguez J, etal. I P off-loading over multi - granular photonic switching technologies.Proceedings of European Conference and Exhibition on Optical Communication (ECOC)2010, Torino, Italy, 2010
[18] Xin C S, Qiao C M, Ye Y H. A hybrid opticalswitching approach. Proceedings of Global Telecommunications Conference, San Francisco,USA, 2003: 3808~3812
[19] Lee G M, Wydrowski B, Zukerman M, et al. Performanceevaluation of an optical hybrid switching system. Proceedings of GlobalTelecommunications Conference, San Francisco, USA, 2003: 2508~2512
[20] Vu H L, Zalesky A, Wong E W M, et al. Scalable performance evaluationof a hybrid optical switch. IEEE/OSA Journal of Lightwave Technology, 2005,23(10): 2961~ 2973
[21] De Leenheer M, Develder C, Vermeir J, et al. Performance analysis of a hybridoptical switch . Proceedings of International Conference on Optical NetworkDesign and Modeling, Vilanovaila Geltru, Spain, 2008
[22] Veisllari R, Bjornstad S, Bozorgebrahimi K. Integratedpacket/circuit hybrid network field -trial, Proceedings of Optical FiberCommunication Conference and Exposition and the National Fiber Optic EngineersConference ( OFC/NFOEC), Anaheim, CA, USA, 2013
[23] Wang G , Andersen D G , Kaminsky M , et al. c -Through: part-time optics indata centers . Proceedings o f the ACM SIGCOMM, New Delhi, India, 2010
[24] Singla A, Singh A, Ramachandran K, et al. Proteus: a topology malleabledata center network. Proceedings of the 9th ACM SIGCOMM Workshop on Hot Topics inNetworks, Monterey, CA, 2010
[25] Farrington N, Porter G, Radhakrishnan S, et al. Helios: a hybridelectrical/optical switch architecture for modular data centers . ACM SIGCOMM ComputerCommunication Review, 2011, 41(4 ): 339~350
[26] Bazzaz H, Tewari M, Wang G, et al. Switching the optical divide:fundamental challenges for hybrid electrical /optical datacenter networks.Proceedings of the 2nd ACM Symposium on Cloud Computing, New York, NY, USA,2011
[27] Kachris C, Tomkos I. A survey on optical interconnectsfor data centers. IEEE Communications Surveys & Tutorials, 2012, 14(4):1021~1036
[28] Sun W Q, Li P Q, Li C. Seamlessly transformablehybrid packet and circuit switching for efficient optical networks. ChineseOptics Letters, 2013, 11(1)
[29] Miyazawa T, Furukawa H, Fujikawa K, et al. Development of an autonomous distributedcontrol system for optical packet and circuit integrated networks. Journal ofOptical Communications and Networking, 2012, 4(1)
[30] Vadrevu C S K , Tornatore M , Guok C P, et al. Vertical and horizontalcircuit/packet integration techniques for the future optical internet. IEEENetwork, 2013, 27(1): 52~58
[31] Milton M, Hadi A. Deep packet inspection andbandwidth management: battles over BitTorrent in Canada and the United States.Telecommunications Policy, 2012, 36(6): 462~475
[32] Breitgand D, Raz D, Shavitt Y. The traveling miserproblem. IEEE/ACM Transactions on Networking, 2006, 14(4): 711~724
[33] Chen B B, Primet P. Scheduling deadline-constrainedbulk data transfers to minimize network congestion. Proceedings of IEEE/ACMInternational Symposium on Cluster, Cloud, and Grid Cpmputing, Rio, Brazil,2007
[34] Agapi A, Soudan S, Pasin M, et al. Optimizing deadline -driven bulkdata transfers in overlay networks. Proceedings of the 18th InternationalConference on Computer Communications and Networks, San Francisco, CA, USA,2009
[35] Li R, Eryilmaz A. Scheduling for end-to-end deadline-constrainedtraffic with reliability requirements in multihop networks. IEEE/ACM Transactionson Networking, 2012, 20(5): 1649~1662
[36] Miyagi H, Hayashitani M, Ishii D, et al. Advanced wavelength reservationmethod based on deadline-aware scheduling for lambda grid networks. IEEE/OSAJournal of Lightwave Technology, 2007, 25(10): 2904~2910
[37] Andrei D, Tornatore M, Batayneh M, et al.Provisioning of deadline-driven requests with flexible transmission rates inWDM mesh networks. IEEE/ACM Transactions on Networking, 2010, 18(2): 353~366
[38] Morell J A. Adaptive resizing ofdeadline-driven requests for provisioning traffic in elastic optical networks (masterdissertation). Miami University, 2013
[39] Sara R, Agarwal A. SDN approach to large scaleglobal data centers. Proceedings of Open Networking Summit, Santa Clara,California, USA, 2012
[40] Mckeown N, Anderson T, Balakrishnan H, et al. OpenFlow: enabling innovation incampus networks . ACM SIGCOMM Computer Communication Review, 2008, 38(2): 69~74
[41] Das S, Parulkar G, Mckeown N, et al. Packet and circuit networkconvergence with OpenFlow. Proceedings of Optical Fiber Communication,Collocated National Fiber Optic Engineers Conference, San Diego, CA, USA, 2010
[42] Yang H, Zhao Y L, Zhang J, et al. Multi-stratum resource integration for OpenFlow-based datacenter interconnect. IEEE/OSA Journal of Optical Communications and Networking,2013, 5(10): A240~A248
[43] Liou C. Next-generation inter-data centernetworking, special symposia 2: next generation data centres- paving the wayfor the Zettabyte era. Proceedings of European Conference and Exhibition onOptical Communication (ECOC), London, UK, 2013
論文引用格式:孫衛(wèi)強(qiáng), 胡衛(wèi)生. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)傳輸網(wǎng). 大數(shù)據(jù), 2015019
Sun W Q, Hu W S. Networking challenges in the big data era. Big Data Research, 2015019
總結(jié)
以上是生活随笔為你收集整理的《大数据》2015年第2期“研究”——大数据时代的数据传输网的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: VS2008 快捷键大全
- 下一篇: 编译原理——实验叁——基于YACC的TI