蔡先生论道大数据之一 : 大数据由来
我記得早在2001年,Gartner公司的一份研究報告首次出現“大數據(Big Data)”概念的提法。但是到今天業內對“大數據”一詞的定義說法不一,但越來越多的研究機構和網絡媒體開始關注它。大數據正成為繼云計算之后新的熱詞。同云計算一樣,大數據雖然也看不見摸不到,卻與今天的IT技術發展如影隨形,已經深入到當前的信息生產、加工、交換過程之中,我們已經享受到的某些信息服務,如在社交網站看到的是自己想關注甚至是感興趣的廣告而看不到不想關注的廣告,這其實是大數據技術的功勞。
背景
????移動互聯網的帶寬的增加和智能設備銷售量的上升,互聯網業迎來了“云計算”和“大數據”。世界經濟論壇一份有關大數據的研究報告稱,每天全球幾十億人使用計算機、GPS設備、電話和醫療設備,產生海量的數據信息。這些用戶大部分來自發展中國家,他們的需求和習慣尚未被真正理解,如果能夠借助大數據相關技術分析和挖掘數據背后的信息,將有助于認識需求、提供預測和防范危機。另有評述說,美國的汽車保有量是中國三倍,而其車禍死亡人數僅為中國的一半,這得益于信息社會的數據革命之功。
????毫無疑問,現在我們比歷史上任何時候擁有的數據信息都要多得多。這些數據來源各式各樣:收集氣候變化的傳感器,社交媒體上的消息,數字照片和視頻,交易記錄,移動電話的GPS信號等等。中國移動研究院在一份簡報中稱,隨著全球信息化的進程加快,數據量的增加已經到達了前所未有的速度,2011年創造的信息數據達到180億GB,而且每年以60%增加,到2020年全球一年產生的數字信息將達到35ZB,相當于350萬億GB。數據在持續地增多變大,多到現有數據技術無法分析處理,我們需要專門來解讀這些海量數據的技術,這就是“大數據技術”。
概念
????如同Gartner公司的報告里提到的那樣,業界普遍認同所謂“大數據”具有明顯的“3V特征”:量級(Volume),速度(Velocity)和多樣性(Variety)。大數據普遍具有量級大,要求處理速度快,數據本身具有豐富的多樣性。在甲骨文公司和中國移動研究院的相關研究文檔里,都追加了第四個V——Value,價值, 而IBM在其相關文檔中給出的第四個“V”則是真實性(Veracity) 。
基于個人的觀點,我給大數據技術的定義是:
在海量的規則或不規則數據集中,用新的數據處理手段,以很快的速度計算或分析出潛在規律性、根本性的判斷、趨勢或預見。也可以簡單說是數據集太大以至于傳統數據庫軟件無法處理,所以稱為“大數據技術”。?? ?
????從數據生成類型上區分,大數據可分為交易數據、交互數據和傳感數據;從數據來源上分,大數據可分為社交媒體、銀行/購物網站、移動電話和平板電腦、各種傳感器/物聯網等等;從數據格式可以分為文本日志、整型數據、圖片、聲音、視頻等;還可從數據關系上區分為結構化數據(如交易流水帳)和非結構化數據(如圖、表,地圖等);從數據所有者可分為公司尤其巨型公司數據、政府數據、社會數據——網絡數據。
????根據美國白宮的“大數據開發計劃”中的說,大數據開發也可指“從龐大而復雜的數字數據中發
掘知識及現象后的本質(extract knowledge and insights from large and complex collections of digital data)”。同時也看到,現在所討論的大數據并不僅僅是數據尺寸的變大,它還可以被視作一個機會,籍此可以在新的正在生成的數據和內容中找到本質的東西,從而使商業運作更敏捷,幫助回答一些此前無法預知的問題。
主要技術
????大數據的提出是為了解決現有數據技術無法滿足快速增多、日益復雜化的數據集合,因此基于大數據的技術涉及層面較廣,至少包括如下一些現有技術的綜合運用。關聯規則學習、分類、分組分析、眾包技術、數據異構與同構、機器學習、自然語言處理、神經網絡、模式識別、預測模型、情態分析、信號處理、時序分析和可視化處理等。
????上述每一項技術如果展開來說,需要寫很多篇文章來討論。如關聯規則學習,是數據挖掘的一個重要課題,用于從大量數據中挖掘出有價值的數據項之間的相關關系,由此產生了對基于大數據的推薦系統的應用研究。再如機器學習,機器學習算法是從數據中自動分析獲得規律,并利用規律對未知數據進行預測的算法。因為學習算法中涉及大量的統計學理論,機器學習與統計推斷學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的、行之有效的學習算法。很多推論問題屬于無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。
????大數據的具體化、實例化的應用離不開Apache Hadoop項目,一種開源、可擴展、分布式的應用計算架構。它包括Common、Distributed File System、MapReduce三個組件部分。Hadoop 的 Map/Reduce 框架是一種主/從架構,機群中有單一的主服務器以及若干個從服務器,在每個節點都有一個從服務器,這些分布式的節點協同工作,共同完成一個整體的大數據處理任務。目前也出現了Spark框架,基于Hadoop技術之上的另一種未來很可能替代Map/Reduce框架,以后我們會詳細討論。
微信號:caimin_yyh
轉載于:https://my.oschina.net/u/1864676/blog/286046
總結
以上是生活随笔為你收集整理的蔡先生论道大数据之一 : 大数据由来的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 30岁买房只需记住一句话,永远不会出错!
- 下一篇: OpenGL之基本图元连接方式