2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用
2015年《大數據》高被引論文Top10文章展示
【編者按】本刊將陸續發布2015年《大數據》高被引論文Top10的文章,歡迎大家關注!本文為高被引Top10論文的No.9,刊登在2015年第1期。其引用格式如下:
朱揚勇, 熊贇. 大數據是數據、技術, 還是應用[J]. 大數據, 2015007.
ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.
朱揚勇1,2,熊 ?赟1,2
1. 復旦大學計算機科學技術學院,上海 ?201203
2. 上海市數據科學重點實驗室(復旦大學),上海 ?201203
摘要:通常認為大數據是一個現有技術難以處理的復雜而龐大的數據集,這將導致一個謬誤的出現:大數據都不能被處理,能處理的都不是大數據。顯然,如何定義大數據是一個問題。分析了已有的大數據定義和現象,發現數據、技術和應用是大數據的三要素,定義大數據是為決策提供服務的大數據集、大數據技術和大數據應用的總稱。其中,大數據集是指一個決策問題所用到的所有可能的數據,而不是一個領域的所有數據。還給出了大數據應用遇到的問題及技術挑戰,并指出大數據未來的研究方向。
關鍵詞:大數據;數據科學;數據界
Defining big data
ZHU Yangyong1,2, XIONG Yun1,2
1. School of Computer Science, Fudan University, Shanghai 201203, China
2. Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China
Abstract:?Generally, big data is regarded as a term about data sets so large or complex that conventional data technologies cannot handle. This statement of big data leads to confusion: none of big data has been handled by existing data technologies; or none of current successful data applications can be called as big data. Therefore, what is the best way to define big data becomes a problem. Data, technology, and application were regarded as three associated key factors of big data by analyzing the state-of-the-art of big data. A comprehensive definition on big data was defined as the umbrella of big data set, big data technology, and big data application. Here, big data set means all data that can be acquired and were related to one decision-making application instead of all data in an area or an enterprise. In addition, the issues in big data applications and the main challenges in big data technologies were discussed. Finally, the future directions of big data research were presented including data science and the technologies of big data reservation and development.
Key words:?big data, data science, data nature
1 ?引言
1997年NASA研究員Michael Cox和David Ellsworth在IEEE第8屆國際可視化學術會議中首先提出了“大數據”術語[1],但并沒有引起太多重視;2008年9月《Nature》學術雜志出版了一期大數據專刊[2],使得大數據在科學研究領域得到了高度重視;2012年3月美國政府發布《大數據研究和發展倡議》[2],大數據引起了主要國家和全社會的重視。一場大數據引發的變革滲透到各個角落。
一個概念讓政治界、商業界、學術界的各個領域都為之興奮不已,超過了當年計算機的誕生,也超過了互聯網的誕生。大數據引起政治界重視,世界強國推出大數據戰略,說明大數據關系到國家競爭力、關系到國家發展、關系到國民大眾;大數據引起商業界重視,跨國公司率先運用大數據,說明大數據已經實用,商業價值重大,是企業競爭的利器;大數據引起學術界重視,說明大數據科學問題眾多,需要科技攻關。
然而,關于什么是大數據卻眾說紛紜,以至于出現一些相互矛盾的現象,最典型的矛盾現象是:技術領域說大數據是當前技術所不能解決的,而應用領域卻給出了大量關于大數據成功應用的案例。“大數據都不能被處理,能夠處理的都不是大數據”或者“大數據都不能用,能用的都不是大數據”這是一個謬誤。事實上,到目前為止,大數據還沒有一致的定義,政治界、商業界、學術界按照各自的理解推進大數據。甚至在信息技術領域,大數據概念也是爭論不休的,各研究方向也都帶上了大數據的帽子,似乎大數據技術將取代信息技術,這顯然是有問題的。
本文探尋大數據概念的內涵、大數據問題和技術挑戰,給出了一個大數據的定義,指出了大數據應用面臨的6個問題(以下簡稱“6用問題”),分析了信息化和大數據的差異,提出了“6用問題”帶來的技術挑戰,并進行了展望。
2 ?大數據概念
嚴格地說,到目前為止,還沒有一個明確的大數據定義,各領域按照自己的理解來研究和發展大數據。最直接的問題是大數據是數據還是技術?顯然,這個問題并不容易回答。
2.1 ?現有定義的問題
目前,大數據有如下幾個定義。
Michael Cox和David Ellsworth在提出“大數據”術語時指出:數據大到內存、本地磁盤甚至遠程磁盤都不能處理,這類數據可視化的問題稱為大數據[1]。
維基百科的定義[3]:大數據是一個復雜而龐大的數據集,以至于很難用現有的數據庫管理系統和其他數據處理技術來采集、存儲、查找、共享、傳送、分析和可視化。
4V定義[4,5]:大數據為具有4V特征的數據集。4V特征是指:價值(value),數據價值巨大但價值密度低;時效(velocity),數據處理分析要在希望的時間內完成;多樣(variety),數據來源和形式都是多樣的;大量(volume),就目前技術而言,數據量要達到PB級別以上。
香山科學會議定義[6]:2013年5月召開的第462次香山科學會議給出了技術型和非技術型兩個定義。
●??技術型定義:大數據是來源多樣、類型多樣、大而復雜、具有潛在價值,但難以在期望時間內處理和分析的數據集。
●??非技術型定義:大數據是數字化生存時代的新型戰略資源,是驅動創新的重要因素,正在改變人類的生產和生活方式。
這些定義總體來講是從技術領域看問題的。可以看出,大數據是難以處理的數據集,即大數據是一個數據集。但是,如果大數據只是一個數據集,那么處理大數據的技術叫大數據技術嗎?與之前的信息技術是否有區別?在應用方面更難說清楚。例如,是否可以說“用大數據解決問題”?顯然,一個數據集是不能解決任何問題的。所以,大數據不僅僅是數據集,但也不僅僅是技術,還有大數據應用。
上述定義最大的問題是,均認為大數據是指當前技術難以(所不能)處理的數據集。但當技術改進了,能夠處理了,還是不是大數據?于是,一個典型的矛盾現象出現:技術領域說大數據是當前技術所不能解決的數據集,而應用領域卻給出了大量關于大數據成功應用的案例。這是對大數據的謬誤:大數據是當前技術難以(所不能)處理的數據集,那么,所有能夠被處理的數據集都不是大數據,所以沒有大數據的成功應用,即“大數據都不能被處理,能夠處理的都不是大數據”或者“大數據都不能用,能用的都不是大數據”。
另外一個現象是大數據之爭,即常常有各種領域的人在一起爭論什么是大數據。由于技術領域和非技術領域對大數據的理解不同,這兩個領域談論的對象其實是不同的,技術領域說的大數據是指大數據技術,而應用領域說的大數據是指大數據應用。事實上,經過長期信息化建設,幾乎所有的行業和單位都積累了龐大的數據資源,所以,數據和基于數據的應用涉及幾乎所有的人。可以將大數據人群分成3類:有大數據的人群、做大數據的人群和用大數據的人群,很多時候大家在談論大數據的時候,實際上是在談論不同的東西,即有大數據的人談論數據資源及其規模、做大數據的人談論大數據帶來的技術挑戰、用大數據的人則談論大數據帶來的決策變革,即3類人群談論的是不同的大數據概念。
出現大數據謬誤和大數據之爭的現象源于大數據概念不清晰,需要一個清晰的定義來避免這些現象的發生。
2.2 ?數據、技術和應用是大數據的三要素
大數據到底是數據、技術,還是應用?
大數據首先是一個技術術語,來自技術領域,或者更準確一點是來自IT(information technology)領域。自Michael Cox和David Ellsworth[1]于1997年首次提出“大數據”以來,在術語發展過程中,始終提及的大數據問題是指“現有技術所不能處理的數據集”,即大數據是一個技術挑戰。直到2012年3月美國政府發布《大數據研究和發展倡議》[2],大數據一詞開始在非技術領域使用。大數據在非技術領域的主要表述為:大數據是決策方式的重大變革,決策依靠數據分析而不是直覺經驗,主要的內涵是“大數據改變了人類生產和生活方式,是一次大變革”[6,7]。
大數據的4V定義涵蓋了所有技術型定義,也是影響最廣泛的,但在具體理解和具體問題面前,還是引起了很多爭論。例如,常常會爭論一個數據集是不是大數據,即夠不夠大,是否達到了PB級別。顯然,這只是問題的表面。問題的核心是:一個數據集是否有價值、是否值得去開發、能否挖掘出價值;能否在希望的時間內挖掘出價值。因此,價值和時效是大數據的核心內涵,是必須的。
(1)關于價值:如果一個數據集沒有價值,就不需要關注;如果一個數據集的價值密度高,即大部分數據都是有價值的,直接讀取數據集就能獲得價值,可以成功應用,沒有技術難度。然而,通常情況是價值巨大但價值密度低,像大海撈針,因此大數據是一個很難的技術挑戰。
(2)關于時效:所有的大數據處理和分析都應該在希望的時間內做完,如果過了希望的時間就沒有意義了,這也是一個技術挑戰。
從上述定義中可以看出:首先,所有的定義都談到了數據,一個龐大的數據集;其次,技術方面強調了大數據是當前技術所不能的,這里的“不能”是指“不能在希望的時間內”做到,是技術問題;第三,大數據是用來解決決策應用問題的,是一個基于數據集和數據技術的決策應用,改變著生產和生活中的決策方式。因此,數據、技術和應用是大數據的3個要素,數據隱含價值、技術發現價值、應用實現價值。
2.3 ?定義大數據
應該如何定義大數據呢?首先,不能把一個技術挑戰定義為大數據,否則,一旦技術挑戰解決了,就不是大數據了,而且挑戰本身不是一個事物,不能命名;其次,也不能把一個數據集定義為大數據,數據集本身只是隱含價值,不能直接發揮作用;最后,更不能將一個數據應用定義為大數據,那樣會導致所有基于數據的系統都是大數據。可以采用如下描述定義大數據。
大數據是指為決策問題提供服務的大數據集、大數據技術和大數據應用的總稱。其中,大數據集是指一個決策問題所用到的所有可能的數據,通常數據量巨大、來源多樣、類型多樣;大數據技術是指大數據資源獲取、存儲管理、挖掘分析、可視展現等技術;大數據應用是指用大數據集和大數據技術來支持決策活動,是新的決策方法。
大數據能否為一個決策問題提供服務的關鍵是:是否能在決策希望的時間內有效完成所有的任務。由于數據增長的速度遠快于技術進步的速度,因此就出現大數據問題。
大數據問題是指不能用當前技術在決策希望的時間內處理分析的數據資源開發利用問題。大數據問題的關鍵技術挑戰在于:找到隱含在低價值密度數據資源中的價值;在希望的時間內完成所有的任務。
根據這個定義,大數據謬誤和大數據之爭就可以避免。
首先,給定一個大數據集,當沒有大數據技術能夠在希望的時間內開發其價值,那么該大數據是一個技術挑戰,否則就是一個大數據應用。需要注意的是,一個大數據應用可能會轉化成大數據的技術挑戰。例如,無人駕駛汽車在道路上行駛時,需要綜合分析汽車自身的工作數據(行駛速度、油量、引擎工作狀態等)、地圖及實時路況數據、道路管理數據(紅綠燈、限速等)等,快速做出駕駛決策。假設汽車10km剎車距離為45 m,那么當汽車時速小于60 km/h時,發現50 m外車道上有行人后,經過2 s的數據分析得出需要剎車的結論是可以接受的,因此是一個成功的大數據應用;但當車速提高到100 km/h時,數據分析的時間就得小于0.18 s,這就變成了技術挑戰。反之,一個大數據挑戰也同樣可以變成一個大數據應用。上述例中,在高速公路上數據分析的時間小于0.18 s,這是一個大數據技術挑戰,但是,如果市內汽車限速為小于50 km/h,那么2 s的數據分析技術就可以使用,就會有成功的大數據應用。
其次,有數據的、做數據的、用數據的人群談論的大數據分別是大數據集、大數據技術和大數據應用,所以不同人群談論的大數據只是大數據的不同側面,分析清楚后就可以避免無謂的爭論。
2.4 ?信息化與大數據
信息化的本質是生產數據的過程,數據被大量生產而形成了數據資源。數據資源的開發利用逐漸成為人類的新需求,從早期的數據倉庫和數據挖掘技術的提出,到決策支持系統和商業智能的應用,都是在進行數據資源的開發利用工作。直到大數據的出現,數據資源的開發利用工作從量變發展到了質變:數據開發發展成為一個新的領域或行業,信息技術發展出新的技術分支——大數據技術,并迅速壯大,對數據界的探索發展成為一個新的科學——數據科學[8~11]。圖1展示了信息化和大數據的差異。
圖1 ? 信息化與大數據
3 ?大數據應用
大數據應用是決策應用,即給定一個決策需求,然后獲取數據,分析數據,形成決策依據。很早期的關于沃爾瑪公司的“尿布和啤酒”的故事,決策需求是“哪些商品最容易被同時購買”。其他如Google預測流感[12]、亞馬遜推薦圖書[13]、科學家發現“上帝粒子”[14]等,都是解決決策應用的。
2008年《Nature》大數據專刊說明:科學研究領域率先遇到大數據決策問題[2]。決策可以發生在任何場合,大到國家宏觀決策、科學研究,小到選擇一家合適餐館、確定一條行車路線。由于決策的復雜性、困難性,大數據集通常是數據量巨大、來源多樣和類型多樣的數據集,這樣大數據應用通常具有跨界數據、跨界應用的特點,打破原有行業領域界限,是決策方式的質變。
3.1 ?決策依靠數據
從古到今,無論在戰場戰爭、商業競爭、科學研究、日常生活中,取勝的重要因素是比別人知道更多、比別人更快地做出正確的決策。計算機出現之前的決策是采用人工方式:依靠手工收集和分析信息、依靠決策者的經驗和直覺做出決策。后來有了計算機決策支持系統(decision support system,DSS),再后來有商業智能(business intelligence,BI),這個時候就可以利用自身信息化積累的數據來開展決策[15]。然而,自身的數據積累是一個漫長、費錢和困難的工作,只有大型企業和政府有能力這樣做。
隨著技術進步和互聯網的普及應用,不論是政府、組織、企業還是個人都越來越有能力獲得決策需要的各種數據,這些數據來源多樣、類型多樣,甚至超過早期大型企業自身的積累,并且數據分析技術也取得了長足進步,人們可以通過分析這些數據得到決策依據。這樣,一種新型的決策方式產生了,這就是大數據決策。由于這是一個從量變到質變的過程,不能簡單地說之前的BI不是大數據,也不能簡單地說BI是大數據。
大數據形成決策依據的3種重要方式是:從精確分析到近似分析、從樣本分析到總體分析、從因果分析到關聯分析[16]。大數據決策主要體現在“通過分析不同來源的各種可能的數據來支持決策活動”。由于大數據過于龐大和復雜,難以弄清數據之間的因果,所以大數據決策常常表現出“知其然就可以做出決策,而可以不知其所以然”[15]。
那么如何來實施大數據決策呢?首先,需要獲取數據,并進行數據清潔和整合,形成大數據集;然后,使用大數據技術分析大數據集;最后,解釋和展示大數據開發的結果,實現大數據決策。
3.2 ?“6用問題”
給定一個大數據應用需求,通常會遇到以下6個方面的問題,即“6用問題”。
(1)數據不夠用
獲取盡可能多的數據(決策素材)是一種直覺上的追求,即數據越多對決策越有利,或者至少比別人知道的更多,雖然實際情況可能不是數據越多越好,但這很難判斷。所以,大數據應用的第一個問題是“數據不夠用”。
(2)數據不可用
在數據夠用的情況下,還會遇到數據不可用問題。數據不可用是指擁有數據,但訪問不到數據。例如,某個公共決策需要用到民政局、公安局、人力資源和社會保障局、稅務局的數據,這些數據在各部門都有,但是數據不在一個系統里,是數據孤島,并不能用來做大數據決策;又如,一些交易系統只保留活躍用戶數據,不活躍用戶的數據被備份到了備份系統中,訪問備份系統數據是一件費時、費力的工作,甚至是不可能的工作。
(3)數據不好用
面對足夠可用的數據資源,下一個問題是數據不好用問題,即數據質量有問題。例如,信用判定應用中,發現一些持卡人的登記信息缺失(如沒有職業數據)或不正確(如收入數據不對),這些問題直接影響了決策依據的獲得;又如,在戰場環境中,由于敵方的有意偽裝和干擾,獲得的數據質量更差。
(4)數據不會用
數據不會用問題是指不懂大數據分析技術、不會將業務問題轉化為數據分析問題,而這正是大數據決策的核心。由于數據分析技術門檻很高,能夠使用大數據分析技術的人很少,而將業務問題轉化為數據分析問題,更需要數據科學家創造性的勞動。例如,在網站上做精準廣告是一個業務問題,在理解業務問題的基礎上,用大數據技術實現對用戶的購買喜好和需求進行聚類分析,將廣告和用戶簇進行對照,好的精準廣告可以針對每個用戶來做。數據科學家極其短缺,使得數據不會用的問題在實際中表現非常嚴重。
(5)數據不敢用
數據不敢用是指因為怕擔責任而將本該用起來的數據束之高閣。很多政府數據資源之所以沒有很好地開發利用,其中一個主要原因是數據擁有部門不愿意將數據用于非本部門業務,怕喪失數據安全(如所有權和數據秘密)。
(6)數據不能用
數據不能用有兩個方面,一個是數據權屬問題,即數據不屬于使用者;另一個是社會問題,即隱私、倫理等問題。首先,沒有使用權的數據不能用;其次,涉及隱私的數據需要脫敏處理,或者只做總體分析,不做個體分析,例如人口統計數據就只能做總體分析,不能做個體分析;第三,涉及倫理等社會問題的數據也不能用,例如信用評分中的種族、民族、性別等數據就不能用。
4 ?大數據集
根據本文的定義,大數據集是指解決一個決策應用問題所用到的所有數據,但不是全球的數據總和,也不是一個行業的數據總和,也不是一個組織的數據總和。但由于決策問題的復雜性,一般來講,大數據集的數據量巨大、來源多樣、類型多樣。一個決策問題用到的數據由具體的決策問題決定,有些可能數據量大但不復雜,有些可能復雜但數據量不大。
4.1 ?從數據界獲取大數據集
數據作為一種資源已經獲得廣泛認識。早在2008年,筆者提出:數據資源是重要的現代戰略資源,其重要程度將越來越顯現,在本世紀有可能超過石油、煤炭、礦產,成為最重要的人類資源;2012年,Amazon前首席科學家Andreas Weigend表示:數據是原油,但石油需要加以提煉后才能使用,從事海量數據處理的公司就是煉油廠;2012年瑞士達沃斯召開的世界經濟論壇上,大數據是討論的主題之一。這個論壇上發布的一份題為《大數據,大影響》(big data, big impact)的報告[7]宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
大數據是數據資源開發利用的一種當前表現形式,即數據資源已經存在于網絡空間,大數據是對網絡空間數據資源的開發利用。網絡空間的所有數據構成數據界[8,9],因此,大數據可以看成用數據界的數據來解決決策問題,大數據集應該是從數據界獲取,而不是從自然界獲取,從自然界獲取數據是信息化。
各種大數據的定義都在說大數據是數據集、資源、資產,說明數據已經存在于網絡空間。前面提到“隨著技術進步和互聯網的普及應用,不論政府、組織、企業還是個人都越來越有能力獲得決策需要的各種數據,這些數據來源多樣、類型多樣,甚至超過早期大型企業自身的積累”,也說明數據來自數據界。
4.2 ?大數據集的要求
大數據使決策者從看到局部數據轉變為看到全局數據、從樣本分析轉變為總體分析。從局部數據到全局數據要求數據集盡量全面,從各種來源獲取所需要的數據;從樣本分析到總體分析要求數據集足夠大。因此,大數據集的要求應該是數據量大或者復雜。
(1)大數據集應該有來源多樣、類型多樣的數據
由于決策的復雜性、困難性,為滿足決策需求,大數據集通常由來源多樣和類型多樣的數據構成,使用跨界數據,開展跨界應用。數據來源多樣的一個要點是來源于決策者/決策機構自身積累之外,這會給數據獲取、數據分析技術帶來挑戰,來源多樣通常也意味著類型多樣。例如,環境生態研究是進化論、基因組學、地理學、海洋學、氣候學、流行病學和經濟學的綜合研究,其研究工作需要有來源多樣的數據[17]。2010年位于墨西哥灣的“深水地平線(deepwater horizon oil)”鉆井平臺爆炸溢油長達80 mile(約128 km)。對溢油帶來的生態影響(如對海岸、海平面、海底的影響,對魚、蝦、昆蟲、植物、鳥類、鯨魚、海龜的影響等)的研究是一個重要課題,需要深海浮游生物(planktonic)和遠洋生物(pelagic organisms)、化學(油和分散劑)、毒理學(toxicology)、海洋學(oceanography)和天文學等多源數據支持。災難發生后,美國國家海洋和大氣管理局派出科學考察船,對污染海域進行取樣;美國宇航局利用衛星上的中解析度成像光譜儀對海上石油污染進行監測;科學家們還在陸上收集相關數據;英國石油公司也展開了對該地區空氣、水質等方面的測試。
(2)大數據集應該有PB級別的數據規模
就目前技術水平而言,引發技術挑戰的大數據集的規模應該有PB級別。PB級別的數據規模是傳統數據庫管理系統(DBMS)軟件所不能有效存放的,因此,PB級別數據規模需要新型的數據管理技術,于是出現分布式文件系統(HDFS)。這只是初步解決了數據存儲問題,數據計算、數據分析、數據展現等方面還有很多技術問題。
2008年《Nature》大數據專刊的封面中,除了醒目的“big data”外,還有一句話“science in thePetabyte era(科學處在PB時代)”,這個封面有兩層意思:第一層意思是科學研究已經到了大數據時代;第二層意思是PB級數據是大數據規模的一個基本標志,數據量足夠大,使用時有技術難度。
在實際中,很多成功的大數據應用的數據集規模都沒有超過PB級別,但是,由于決策者所處的計算環境、資金支持所限,很多小于PB級別的數據集已經構成了技術挑戰。《Science》雜志于2011年對許多數據相關研究人員(他們都是國際、交叉領域的科學研究團隊的負責人)進行了調查,收到了1 700份回應,其中,20%的人回應一般使用和分析的數據集超過了100 GB,7%的科學家使用和分析1 TB以上的數據。一半的科學家認為他們一般僅使用存儲于自己實驗室的數據,但這不是一個理想的解決方案。國際千人基因組計劃(1 000?genomes project)自2008年啟動以來,短短4年間已獲得1 092人的基因組數據[18],產生的數據量已達到50 TB。
但在可以預見的未來,PB級別的數據量是科學研究領域進行一項科學研究的常態,也是很多領域的決策應用的常態。例如,2013年3月14日,通過對大約200?PB的數據用150個計算中心進行長達3年的計算分析,歐洲核子研究組織宣布確認希格斯玻色子[14]。又如,美國斯坦福線性加速器中心(SLAC)國家加速器實驗室(National Accelerator Laboratory)計劃建造的大型綜合巡天望遠鏡(large synoptic survey telescope,LSST)將每晚獲取數據5~10 TB(而目前的SDSS僅有每晚200 GB),計劃獲取60 PB影像數據[19]。
5 ?大數據技術
面對“6用問題”,大數據技術面臨很多挑戰。
針對數據不夠用問題,需要研究、使用數據獲取技術:如何獲取足夠的數據,是大數據的第一個技術挑戰。大數據需要從數據界獲取跨領域行業、多類型的數據,而不是從自然界獲取數據,因此網絡空間的哪些地方有所需的數據、如何拿到數據等是主要的技術挑戰,搜索、爬取、下載等是常見的數據獲取技術。
針對數據不可用問題,需要研究、使用數據儲備和管理技術:數據不可用問題對技術的挑戰是巨量數據存儲與管理、跨地域數據訪問與計算。分布式文件系統、Hadoop是當前被較多采用的技術。
針對數據不好用問題,需要研究、使用數據質量技術:數據不好用問題對技術的挑戰是數據質量判定、數據質量提升、數據質量修復。數據清潔是當前采用的數據質量技術,但效果有限。
針對數據不會用問題,需要研究、使用數據分析技術:數據不會用問題需要既能理解業務需求又懂數據分析技術的數據科學家,其技術挑戰是數據挖掘算法的設計和實現、在可接受的時間完成計算。面對PB以上級別的復雜數據,還缺少有效的數據挖掘算法和軟件工具。
針對數據不敢用問題,需要研究、使用數據開放共享技術:如果技術做得好,這個問題是有希望解決的。例如,在傳統數據管理系統軟件中,數據管理員管理整個數據庫,但是他并不具備訪問具體數據的權限,因此他并不能知曉數據秘密。之前,大部分數據都不開放,所以相應的技術研究有很多空白。數據不敢用的技術挑戰是在保護數據安全(所有權和數據秘密)的前提下實現數據開放共享。
針對數據不能用問題,需要研究使用數據權屬及保護技術:之前,大部分數據都是自己生產,自己保管,問題不嚴重,所以相應的技術研究有很多空白。數據不能用的范圍廣泛,主要的技術挑戰包括數據權屬的認證和判別技術、隱私保護技術等。
長期以來,信息技術主要是用于信息化的,即生產數據,而大數據是用于開發數據的,如圖1所示。面對大數據決策的“6用問題”,之前的技術在數據獲取、數據存儲與管理、數據質量保障、數據安全與隱私保護等方面遇到了一系列新的技術挑戰,需要開發大數據技術來應對這些挑戰,而以數據分析技術為核心的數據開發技術正逐步形成獨立的技術分支。表1展示了生產數據和開發數據的技術差異。
表1 ? 生產數據與開發數據的技術差異
6用問題 | 數據技術 | 信息化(生產數據技術) | 大數據(開發數據技術) |
數據不夠用 | 數據獲取 | 從自然界獲取數據:通過數字化設備和計算機I/O設備獲得數據 | 從數據界獲取數據:購買數據或從各數據源通過下載、爬蟲、分發等技術手段獲得數據 |
數據不可用 | 數據存儲管理 | 開發各種存儲技術,包括存儲設備、DBMS等各種存儲技術 | 數據已經存在網絡空間的某個地方,主要技術包括數據搜索和訪問技術、異地計算技術、適合數據分析的存儲技術 |
數據不好用 | 數據質量保障 | 內部數據:數據質量技術 | 有大量外部數據,數據質量問題較嚴重,需要新的數據質量技術 |
數據不會用 | 數據挖掘分析 | 數據挖掘分析技術被分離出來,形成數據開發技術的核心 | 數據融合、統計分析、數據挖掘、深度學習等是數據開發的核心技術,還有數據勘探、可視化等 |
數據不敢用 | 數據開放共享 | 數據開放不多,技術有限 | 新技術,如保護數據安全(所有權和數據秘密)的前提下實現數據開放共享技術 |
數據不能用 | 數據安全隱私 | 內部數據:技術有限 | 有大量外部數據,數據權屬的認證和判別技術、隱私保護技術等 |
6 ?結束語
長期的信息化實踐,從數據生產、數據積累、數據資源形成到數據開發,從量變到質變,數據開發發展成為一個新的領域或行業,信息領域發展出新的分支-——大數據。大數據是指為決策問題提供服務的大數據集、大數據技術和大數據應用的總稱。大數據問題是指不能用當前技術在決策希望的時間內處理分析的數據資源開發利用問題。大數據引發了決策方式的質變,對政治界、商業界、學術界都產生重大影響。
數據的增長給技術帶來了挑戰,所謂“當前技術所不能”;隨著技術的進步,成功的大數據應用不斷出現,大數據正是在“數據增長”和“技術進步”之間交替前行,成就了當今的大數據熱潮。從理論上講,大數據的技術挑戰在摩爾定律的作用下可以自行解決,但數據增長的速度遠快于技術進步的數據,所以今天出現了大數據問題。除非出現革命性技術,否則大數據問題不可能被解決。這就需要關注數據本身的變化發展規律,發展數據科學。
對大數據和數據科學的發展展望如下。
(1)大數據儲備技術需求迫切
數據作為資源,建立數據儲備將是重大需求,因此,數據獲取、數據儲備設計、數據儲備管理、數據搬運、異地數據計算、數據主權保護等數據儲備技術有望快速發展。
(2)大數據開發技術快速發展
數據生產技術相對成熟,并形成穩步發展。數據開發技術即將進入快速發展期,包括數據分析技術、大數據軟件工程、決策應用技術等。
(3)數據科學穩步前行
從科學研究、學科發展和人才培養角度來看,數據科學將會快速發展。近3年,在美國有包括哥倫比亞大學、紐約大學、加州大學、卡耐基梅隆大學等許多高校建立數據科學研究機構或開設數據科學專業研究生培養項目。
參考文獻:
[1] ?Cox M, Ellsworth D. Application-controlleddemand paging for out-of-core visualizetion. Proceedingsof the 8th Conference on Visualization, Phoenix, AZ, USA, 1997: 235~244
[2] ? U. S. Government. Big data research anddevelopment initiative. http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf, 2012
[3] ? Wikipedia. Big data.http://en.wikipedia.org/wiki/Big_data, 2015
[4] ? Mark B. Gartner says solving ‘big data’challenge involves more than just managing volumes of data.http://www.gartner.com/newsroom/id/1731916, 2011
[5] ? Villanova University. What is big data.http://www.villanovau.com/resources/bi/ what-is-big-data/, 2015
[6] ??數據科學與大數據的科學原理及發展前景.?第462次香山科學會議,?北京,?中國, 2013
The scientificprinciple and prospect of data science and big data. Proceedings of the 462ndXiangshan Science Conference, Beijing, China, 2013
[7] ? World Economic Forum. Big data, big impact:new possibilities for international development.http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf, 2012
[8] ? Zhu Y Y, Zhong N, Xiong Y. Data explosion,data nature and dataology. Proceedings of International Conference on BrainInformatics, Beijing, China, 2009: 147~158
[9] ??朱揚勇,?熊赟.?數據學.?上海:復旦大學出版社,2009
Zhu Y Y, Xiong Y. Dataology and DataScience. Shanghai: Fudan University Press, 2009
[10] CODATA中國全國委員會.?大數據時代的科學活動.?北京:?科學出版社,2014
CODATA China National Committee.Scientific Discovery in Big Data Era. Beijing: Science Press, 2014
[11] Zhu Y Y, Xiong Y. Defining data science.http://arxiv.org/ftp/arxiv/papers/1501/ 1501.05039.pdf, 2015
[12] Google. Google flu trends.http://www.google.org/flutrends, 2008
[13] Greg L, Brent S, Jeremy Y. Amazon.comrecommendations: item-to-item collaborative filtering. ?IEEE Internet Computing, 2003, 7(1): 76~80
[14] Adrian C. Higgs boson positively identified.http://news.sciencemag.org/sciencenow/2013/03/higgs-boson-positively-identifie.html?ref=hp, 2013
[15]?吳俊偉,?朱揚勇.?匯計劃在行動.?上海:上海科學技術出版社, 2015
Wu J W, Zhu Y Y.Shanghai Big Data in Action. Shanghai: Shanghai Scientific and TechnicalPublishers, 2015
[16] Schonberger V M, Cukier K. Big Data: ARevolution That Will Transform How We Live Work and Think. London: HodderExport, 2013
[17] Reichman O J, Jones M B, Schildhauer M P.Challenges and opportunities of open data in ecology. Science, 2011, 331(6018):703~705
[18] McVean G A, Abecasis D M. An integrated map ofgenetic variation from 1092 human genomes. Nature, 2012, 491(7422): 56~65
[19] Feigelson E D, Babu G J. Big data inastronomy. http://astrostatistics.psu.edu/ 2012Significance.pdf, 2012
朱揚勇,男,博士,復旦大學計算機科學技術學院教授、學術委員會主任,上海市數據科學重點實驗室主任。1989年起從事數據領域研究,2008年提出數據資源保護和利用,2009年發表了數據科學論文“Data explosion, data nature and dataology”,并出版專著《數據學》,對數據科學進行了系統探討和描述。2010年創辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創辦了“International Conference on Data Science”。第462次香山科學會議“數據科學與大數據的理論問題探索”的執行主席,《大數據技術與應用叢書》主編。目前研究興趣為數據科學、大數據。
熊赟,女,博士,復旦大學計算機科學技術學院副教授。2004年起從事數據領域方面的研究工作,作為項目負責人主持國家自然科學基金、上海市科委發展基金以及企業合作項目。相關研究成果在本領域國際權威期刊或會議發表論文30余篇,出版專著2本。目前研究興趣為數據科學、大數據。
總結
以上是生活随笔為你收集整理的2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一步一步的写出你自己的makefile文
- 下一篇: C++之const修饰得到是谁