【数字智能三篇】之一: 一页纸说清楚“什么是大数据”
按:【數字智能三篇】 目前“大數據”、“推薦系統”、“深度學習”是數字智能領域的熱點研究方向,相關的書籍也很火熱,比如“大數據”僅這兩年就出版了很多本,讓一般人看的眼花繚亂。
本系列共分三篇,力求僅以一頁紙的篇幅來系統完整地介紹以上這三個方向,深入淺出。以下內容摘自2014年新出版的《3D打印:三維智能數字化創造》一書,有刪節,完整內容及目錄詳見鏈接:http://www.sigvc.org/why/book/3dp/index.htm?
-----------------------
“大數據”(Big Data)是“數據化”趨勢下的必然產物。數據化帶來了兩個重大的變化。一是數據量的爆炸性劇增,最近幾年所產生的數據量等同于2010年以前整個人類文明產生的數據量總和。以前網上的3D模型非常少,而目前僅Shapeways這一個網站上的3D模型,就已突破了100萬個。二是數據來源的多樣化以及異構性,比如介紹某款手機產品的網頁,既有文本、語音,還有視頻、圖像、3D模型等,從各個方面展示了該產品的特征,這種多源性也有助于濾除數據噪聲、交叉驗證。數據間是否具有結構性和關聯性,是“大數據”與“大規模數據”的重要差別;“大數據”這一概念中包含著對數據對象的處理行為,即快速挖掘和展現其中蘊含著的有價值信息。
大數據的特點可總結為4個“V”——Volume(體量巨大)、Variety(類型多樣)、Value(價值密度低,商業價值高)、Velocity(處理速度快)。牛津大學互聯網研究所維克托·邁爾·舍恩伯格教授指出,“大數據”所代表的是當今網絡社會所獨有的一種新型能力──通過對海量數據進行分析,來獲得有巨大價值的產品和服務或深刻的洞見。例如,你在網上買書時,網站根據你之前的購買記錄快速推測你的閱讀類型(比如你喜歡魔幻武俠小說),然后把當前最熱門的3部魔幻武俠小說顯示在網頁最醒目的位置,以便激發你的購買欲。因此,可利用大數據對客戶群進行細分,通過分析其既往行為,推測他們潛在的意圖、習慣和計劃,以實現精準營銷。
大數據時代會顛覆許多傳統思維,在哲學層面體現為“經驗主義”比“理性主義”更多地被人們所采用。以前人們總在探尋問題的因果:事物為什么會這樣?但現在,人們更關心結論。比如,從大量數據分析得出冬天第一場雪過后大白菜價格會漲大概兩倍,那么商家會更樂意利用這個結論來關注天氣預報并伺機囤積大白菜,而不會像專家那樣坐在一起討論為什么第一場冬雪后大白菜會漲價、為什么是漲兩倍而不是漲3.2倍。大數據也意味著對效率的追求,而不是去過分追求數值上的精確。
專家的價值在于因果分析,而大數據卻放棄對因果關系(Causality)的追求,僅關注相關關系(Correlation)。也就是說,只需要知道“是什么”,而不需要知道“為什么”。這種變化已經遠遠突破了技術層面,將對人類認識世界的哲學觀產生重大影響。因果關系只是相關關系中特殊的一種,大數據告訴我們很多情況下只要關注相關關系以做出預測就夠了。另一種可能的解釋是,數據是不會騙人的,而人(即使是專家)的見解往往是主觀和偏見的。當然,我們并不是說邏輯性的因果關系不重要,而是我們一開始往往會迷失在紛亂繁雜的數據海洋中、毫無頭緒,所以這時就可首先想辦法獲得統計意義上的相關關系,然后再考慮從中提取出邏輯性的因果關系。這其實很好理解:當我們對數據無法直接獲得可解釋性時,那就試著先觀察出這些數據的統計規律性(“是什么”),然后再針對這些規律進行解釋(“為什么”)。
大數據還有一個巨大的優勢是,可利用通用的的統計學模型代替各種各樣的專家系統,“以不變應萬變”。例如,基于大數據(包羅萬象的語料數據),Google的翻譯算法可統一實現幾十種語言(英語、漢語、法語、韓語、拉丁語等等)的互譯,而無須針對每種語言定制專門的語法專家系統。IBM?公司的?Fred Jelinek院士是利用大數據進行統計語音識別與合成的著名學者,他曾說過一句著名的論點:“每當我解雇一個語言學家,語音識別系統的性能就會改善一些”。
大數據是網絡社會在掌握海量數據收集、存儲和處理技術基礎上所產生的一種進行判斷和預測的能力。專家往往希望歸納出一個模型,而在大數據時代,數據直接自己“說話”,變得比模型更重要,因為再復雜的模型也無法包羅萬象。而當數據“大”(多)到能對幾乎整個樣本空間進行充分覆蓋時,就可以減弱對理論和模型的依賴,不再需要通過模型去經歷“從特殊歸納(Induce)到一般,再從一般演繹(Deduce)到特殊”的傳統流程,而是利用大數據去直接實現“從特殊到特殊”的判斷和預測(這種直接的方式也被稱為轉導,Transduce),因為大數據中已經包含了足夠多的“特殊”樣本以供參考。換言之,此時數據本身便是模型,也即大數據可實現全樣而非抽樣(現實中要獲得代表真實情況的抽樣非常難,比如可能會因為抽樣不夠全面而遭遇“黑天鵝事件”)。
大數據將給整個社會帶來從生活到思維上革命性的變化:人們所接受的服務,將以數字化和個性化的方式呈現,借助3D打印技術和智能數字化,零售業和醫療業也將實現數字化和個性化的服務。
擴展:除了大數據,還有所謂的小數據(iData)。小數據跟大數據的根本區別在于:小數據以單個人(個體)為唯一對象,重點在于深度,即像一位忠誠細致的“個人管家”那樣對個人數據進行全方位、全天候地深入精確分析,同時還可主動靈活地設置各種外界訪問權限以保護個人隱私;而大數據則側重在某個領域(群體),大范圍、大規模地進行數據的全面收集處理分析,側重點在于廣度。
目前,Hadoop是最為流行的大數據處理平臺,是一個開源的、可運行于大規模集群上的分布式并行編程框架,由分布式文件系統(如HDFS)、數據庫(如HBase,屬于NoSQL類型的數據庫)、數據處理模塊(如分布式編程模型MapReduce)等組成。借助于Hadoop,程序員可以輕松地編寫分布式并行程序,將其運行于大規模集群上,從而完成大數據的計算。除了Hadoop,此外還有另一個高效的分布式并行計算系統Spark,通用性更好、迭代運算效率更高、容錯能力更強,目前其發展勢頭正逐漸蓋過Hadoop。
擴展:數據挖掘不僅與統計學習有關,而且與信息論緊密相關。所謂信息,根據信息論創始人香農(Claude Elwood?Shannon)的說法:“凡是在一種情況下能減少不確定性的任何事物都叫做信息”。在信息論中,使用信息熵(Entropy、Shannon Entropy,簡稱:熵)來評估信息量的大小,即不確定性的度量:
通過上式可以看出信息熵被定義為信息()的期望值,單位為比特(bit)。事件的不確定性越大,則信息熵就越大(也即把它搞清楚所需的信息量就越大)。比如,“人咬狗”相比于“狗咬人”是小概率事件,可能性小,不確定性大,因此熵更大。
條件熵(Conditional Entropy)的定義:
可證明,也即如果增加了(與相關的)的信息,的不確定性下降了。類似地,還有。
那么,與到底有多相關呢?我們可通過互信息(Mutual Information)來量化地度量“相關性”:
? ? ? ??
比如,“計算機”和“鼠標”這兩個詞的互信息就比“計算機”和“牙刷”的互信息更大,因為前者更相關。
相對熵(Relative Entropy),又叫KL距離(Kullback-Leibler Divergence,KL散度)、信息增益(Information Gain)、信息散度(Information Divergence):
? ? ? ? ? ? ? ?
不同于前面的熵和互信息(它們衡量的是隨機變量的關系),相對熵衡量的是兩個概率分布函數的差異程度。
from:?http://blog.sciencenet.cn/blog-4099-781642.html
總結
以上是生活随笔為你收集整理的【数字智能三篇】之一: 一页纸说清楚“什么是大数据”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习-LeCun、Bengio和Hi
- 下一篇: 【数字智能三篇】之二: 一页纸说清楚“什