大数据是什么?一篇文章正确告诉你
大數(shù)據(jù)是什么#
大數(shù)據(jù)本身是一個抽象的概念。從一般意義上講,大數(shù)據(jù)是指無法在有限時間內(nèi)用常規(guī)軟件工具對其進(jìn)行獲取、存儲、管理和處理的數(shù)據(jù)集合。
目前,業(yè)界對大數(shù)據(jù)還沒有一個統(tǒng)一的定義,但是大家普遍認(rèn)為,大數(shù)據(jù)具備 Volume、Velocity、Variety 和 Value 四個特征,簡稱“4V”,即數(shù)據(jù)體量巨大、數(shù)據(jù)速度快、數(shù)據(jù)類型繁多和數(shù)據(jù)價值密度低,如圖 1 所示。下面分別對每個特征作簡要描述。
大數(shù)據(jù)特征
?
Volume:表示大數(shù)據(jù)的數(shù)據(jù)體量巨大。#
數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已經(jīng)從 GB 級增加到 TB 級再增加到 PB 級,近年來,數(shù)據(jù)量甚至開始以 EB 和 ZB 來計數(shù)。
例如,一個中型城市的視頻監(jiān)控信息一天就能達(dá)到幾十 TB 的數(shù)據(jù)量。百度首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過 1-5PB,如果將這些數(shù)據(jù)打印出來,會超過 5000 億張 A4 紙。圖 2 展示了每分鐘互聯(lián)網(wǎng)產(chǎn)生的各類數(shù)據(jù)的量。
互聯(lián)網(wǎng)每分鐘產(chǎn)生的數(shù)據(jù)
?
Velocity:表示大數(shù)據(jù)的數(shù)據(jù)產(chǎn)生、處理和分析的速度在持續(xù)加快。#
加速的原因是數(shù)據(jù)創(chuàng)建的實時性特點,以及將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中的需求。數(shù)據(jù)處理速度快,處理模式已經(jīng)開始從批處理轉(zhuǎn)向流處理。
業(yè)界對大數(shù)據(jù)的處理能力有一個稱謂——“ 1 秒定律”,也就是說,可以從各種類型的數(shù)據(jù)中快速獲得高價值的信息。大數(shù)據(jù)的快速處理能力充分體現(xiàn)出它與傳統(tǒng)的數(shù)據(jù)處理技術(shù)的本質(zhì)區(qū)別。
Variety:表示大數(shù)據(jù)的數(shù)據(jù)類型繁多。#
傳統(tǒng) IT 產(chǎn)業(yè)產(chǎn)生和處理的數(shù)據(jù)類型較為單一,大部分是結(jié)構(gòu)化數(shù)據(jù)。隨著傳感器、智能設(shè)備、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動計算、在線廣告等新的渠道和技術(shù)不斷涌現(xiàn),產(chǎn)生的數(shù)據(jù)類型無以計數(shù)。
現(xiàn)在的數(shù)據(jù)類型不再只是格式化數(shù)據(jù),更多的是半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),如 XML、郵件、博客、即時消息、視頻、照片、點擊流、 日志文件等。企業(yè)需要整合、存儲和分析來自復(fù)雜的傳統(tǒng)和非傳統(tǒng)信息源的數(shù)據(jù),包括企業(yè)內(nèi)部和外部的數(shù)據(jù)。
Value:表示大數(shù)據(jù)的數(shù)據(jù)價值密度低。#
大數(shù)據(jù)由于體量不斷加大,單位數(shù)據(jù)的價值密 度在不斷降低,然而數(shù)據(jù)的整體價值在提高。以監(jiān)控視頻為例,在一小時的視頻中,有用的數(shù)據(jù)可能僅僅只有一兩秒,但是卻會非常重要。現(xiàn)在許多專家已經(jīng)將大數(shù)據(jù)等同于黃金和石油,這表示大數(shù)據(jù)當(dāng)中蘊含了無限的商業(yè)價值。
根據(jù)中商產(chǎn)業(yè)研究院發(fā)布的《2018-2023 年中國大數(shù)據(jù)產(chǎn)業(yè)市場前景及投資機會研究報告》顯示,2017 年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)到 4700 億元,同比增長 30%。隨著大數(shù)據(jù)在各行業(yè)的融合應(yīng)用不斷深化,預(yù)計 2018 年中國大數(shù)據(jù)市場產(chǎn)值將突破 6000 億元達(dá)到 6200 億元。
通過對大數(shù)據(jù)進(jìn)行處理,找出其中潛在的商業(yè)價值,將會產(chǎn)生巨大的商業(yè)利潤。
大數(shù)據(jù)時代是什么意思#
近年來,信息技術(shù)迅猛發(fā)展,尤其是以互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、信息獲取、社交網(wǎng)絡(luò)等為代表的技術(shù)日新月異,促使手機、平板電腦、pc 等各式各樣的信息傳感器隨處可見,虛擬網(wǎng)絡(luò)快速發(fā)展,現(xiàn)實世界快速虛擬化,數(shù)據(jù)的來源及其數(shù)量正以前所未有的速度增長。
伴隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等信息技術(shù)的快速發(fā)展和傳統(tǒng)產(chǎn)業(yè)數(shù)字化的轉(zhuǎn)型,數(shù)據(jù)量呈現(xiàn)幾何級增長,根據(jù)市場研究資料顯示,全球數(shù)據(jù)總量將從 2016 年的 16.1ZB 增長到 2025 年的 163ZB (約合 180 萬億 GB),十年內(nèi)將有 10 倍的增長,復(fù)合增長率為 26%,如圖 1 所示。
若以現(xiàn)有的藍(lán)光光盤為計量標(biāo)準(zhǔn),那么 40ZB 的數(shù)據(jù)全部存入藍(lán)光光盤,所需要的光盤總重量將達(dá)到 424 艘尼米茲號航母的總重量。而這些數(shù)據(jù)中,約 80% 是非結(jié)構(gòu)化或半結(jié)構(gòu)化類型的數(shù)據(jù),甚至更有一部分是不斷變化的流數(shù)據(jù)。因此,數(shù)據(jù)的爆炸性增長態(tài)勢,以及其數(shù)據(jù)構(gòu)成特點使得人們進(jìn)入了“大數(shù)據(jù)”時代。
?
如今,大數(shù)據(jù)已經(jīng)被賦予多重戰(zhàn)略含義。
在資源的角度,數(shù)據(jù)被視為“未來的石油”,被作為戰(zhàn)略性資產(chǎn)進(jìn)行管理。
在國家治理角度,大數(shù)據(jù)被用來提升治理效率,重構(gòu)治理模式,破解治理難題,它將掀起一場國家治理革命。
在經(jīng)濟(jì)增長角度,大數(shù)據(jù)是全球經(jīng)濟(jì)低迷環(huán)境下的產(chǎn)業(yè)亮點,是戰(zhàn)略新興產(chǎn)業(yè)的最活躍部分。
在國家安全角度,全球數(shù)據(jù)空間沒有國界邊疆,大數(shù)據(jù)能力成為大國之間博弈和較量的利器。
總之,國家競爭焦點將從資本、土地、人口、資源轉(zhuǎn)向數(shù)據(jù)空間,全球競爭版圖將分成新的兩大陣營:數(shù)據(jù)強國與數(shù)據(jù)弱國。
從宏觀上看,由于大數(shù)據(jù)革命的系統(tǒng)性影響和深遠(yuǎn)意義,主要大國快速做出戰(zhàn)略響應(yīng),將大數(shù)據(jù)置于非常核心的位置,推出國家級創(chuàng)新戰(zhàn)略計劃。
美國 2012 年發(fā)布了《大數(shù)據(jù)研究和發(fā)展計劃》,并成立“大數(shù)據(jù)高級指導(dǎo)小組”,2013 年又推出“數(shù)據(jù)一知識一行動”計劃,2014 年進(jìn)一步發(fā)布《大數(shù)據(jù):把握機遇,維護(hù)價值》政策報告,啟動“公開數(shù)據(jù)行動”,陸續(xù)公開 50 個門類的政府?dāng)?shù)據(jù),鼓勵商業(yè)部門進(jìn)行開發(fā)和創(chuàng)新。
歐盟正在力推《數(shù)據(jù)價值鏈戰(zhàn)略計劃》;英國發(fā)布了《英國數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》;日本發(fā)布了《創(chuàng)建最尖端 IT 國家宣言》;韓國提出了“大數(shù)據(jù)中心戰(zhàn)略”。中國多個省市發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略,國家層面的《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》也于 2015 年 8 月 19 日正式通過。
從微觀上看,大數(shù)據(jù)重塑了企業(yè)的發(fā)展戰(zhàn)略和轉(zhuǎn)型方向。
美國的企業(yè)以 GE 提出的“工業(yè)互聯(lián)網(wǎng)”為代表,提出智能機器、智能生產(chǎn)系統(tǒng)、智能決策系統(tǒng),將逐漸取代原有的生產(chǎn)體系,構(gòu)成一個“以數(shù)據(jù)為核心”的智能化產(chǎn)業(yè)生態(tài)系統(tǒng)。
德國的企業(yè)以“工業(yè) 4.0”為代表,要通過信息物理系統(tǒng)(Cyber Physical System, CPS)把一切機器、物品、人、服務(wù)、建筑統(tǒng)統(tǒng)連接起來,形成一個高度整合的生產(chǎn)系統(tǒng)。
中國的企業(yè)以阿里巴巴提出的“DT 時代”(Data Technology)為代表,認(rèn)為未來驅(qū)動發(fā)展的不再是石油、鋼鐵,而是數(shù)據(jù)。
這 3 種新的發(fā)展理念可謂異曲同工、如出一轍,共同宣告“數(shù)據(jù)驅(qū)動發(fā)展”成為時代主題。
與此同時,大數(shù)據(jù)也是促進(jìn)國家治理變革的基礎(chǔ)性力量。正如《大數(shù)據(jù)時代》的作者舍恩伯格在定義中所強調(diào)的:“大數(shù)據(jù)是人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法完成的。”
在國家治理領(lǐng)域,大數(shù)據(jù)為解決以往的“頑疾”和 “痛點”,提供了強大支撐,如建設(shè)陽光政府、責(zé)任政府、智慧政府;大數(shù)據(jù)使以往無法實現(xiàn)的環(huán)節(jié)變得簡單、可操作,如精準(zhǔn)醫(yī)療、個性化教育、社會監(jiān)管、輿情監(jiān)測預(yù)警。
大數(shù)據(jù)也使一些新的主題成為國家治理的重點,如維護(hù)數(shù)據(jù)主權(quán)、開放數(shù)據(jù)資產(chǎn)、保持在數(shù)字空間的國家競爭力等。
中國具備成為數(shù)據(jù)強國的優(yōu)勢。中國的數(shù)據(jù)量在 2013 年已達(dá)到 576EB,到 2020 年這個數(shù)字將會達(dá)到 8.06ZB,增長超過 12 倍。
從全球占比來看,中國成為數(shù)據(jù)強國的潛力極為突岀,2010 年中國數(shù)據(jù)占全球數(shù)據(jù)的比例為 10%,2013 年占比為 13%,2020 年占比將達(dá)到 18%。
?
屆時,中國的數(shù)據(jù)規(guī)模將超過美國位居世界第一。中國成為數(shù)據(jù)大國并不奇怪,因為中國是人口大國、制造業(yè)大國、互聯(lián)網(wǎng)大國、物聯(lián)網(wǎng)大國,這都是最活躍的數(shù)據(jù)生產(chǎn)主體,未來幾年,中國成為數(shù)據(jù)大國也是邏輯上的必然結(jié)果。
大數(shù)據(jù)的產(chǎn)生和作用(詳細(xì)分析)#
從采用數(shù)據(jù)庫作為數(shù)據(jù)管理的主要方式開始,人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了 3 個階段,而正是數(shù)據(jù)產(chǎn)生方式的巨大變化才最終導(dǎo)致大數(shù)據(jù)的產(chǎn)生。
運營式系統(tǒng)階段。#
數(shù)據(jù)庫的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低,在實際使用中,數(shù)據(jù)庫大多為運營系統(tǒng)所采用,作為運營系統(tǒng)的數(shù)據(jù)管理子系統(tǒng),如超市的銷售記錄系統(tǒng)、銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。
人類社會數(shù)據(jù)量的第一次大的飛躍正是在運營式系統(tǒng)開始廣泛使用數(shù)據(jù)庫時開始的。這個階段的最主要特點是,數(shù)據(jù)的產(chǎn)生往往伴隨著一定的運營活動;而且數(shù)據(jù)是記錄在數(shù)據(jù)庫中的,例如,商店每售出一件產(chǎn)品就會在數(shù)據(jù)庫中產(chǎn)生一條相應(yīng)的銷售記錄。這種數(shù)據(jù)的產(chǎn)生方式是被動的。
用戶原創(chuàng)內(nèi)容階段。#
互聯(lián)網(wǎng)的誕生促使人類社會數(shù)據(jù)量出現(xiàn)第二次大的飛躍,但是真正的數(shù)據(jù)爆發(fā)產(chǎn)生于 Web 2.0 時代,而 Web 2.0 的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容。這類數(shù)據(jù)近幾年一直呈現(xiàn)爆炸性的增長。
主要有以下兩個方面的原因。
是以博客、微博和微信為代表的新型社交網(wǎng)絡(luò)的岀現(xiàn)和快速發(fā)展,使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強烈。
是以智能手機、平板電腦為代表的新型移動設(shè)備的出現(xiàn),這些易攜帶、全天候接入網(wǎng)絡(luò)的移動設(shè)備使得人們在網(wǎng)上發(fā)表自己意見的途徑更為便捷。這個階段的數(shù)據(jù)產(chǎn)生方式是主動的。
感知式系統(tǒng)階段。#
人類社會數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,今天我們正處于這個階段。這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。
隨著技術(shù)的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器,并開始將這些設(shè)備廣泛地布置于社會的各個角落,通過這些設(shè)備來對整個社會的運轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會源源不斷地產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動的。
簡單來說,數(shù)據(jù)產(chǎn)生經(jīng)歷了被動、主動和自動三個階段。這些被動、主動和自動的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來源,但其中自動式的數(shù)據(jù)才是大數(shù)據(jù)產(chǎn)生的最根本原因。
大數(shù)據(jù)的作用
大數(shù)據(jù)雖然孕育于信息通信技術(shù),但它對社會、經(jīng)濟(jì)、生活產(chǎn)生的影響絕不限于技術(shù)層面。更本質(zhì)上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基于數(shù)據(jù)分析,而不是像過去更多憑借經(jīng)驗和直覺。具體來講,大數(shù)據(jù)將有以下作用。
對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點。#
移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。
云計算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會價值,大數(shù)據(jù)具有催生社會變革的能量。
大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。#
面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會不斷涌現(xiàn)。
在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,還將催生出一體化數(shù)據(jù)存儲處理服務(wù)器、內(nèi)存計算等市場。
在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析技術(shù)、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。
大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。#
各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)變。
在商業(yè)領(lǐng)域,對大數(shù)據(jù)的分析可以使零售商實時掌握市場動態(tài)并迅速做出應(yīng)對,可以為商家制定更加精準(zhǔn)有效的營銷策略提供決策支持,可以幫助企業(yè)為消費者提供更加及時和個性化的服務(wù)。
在醫(yī)療領(lǐng)域,可提高診斷準(zhǔn)確性和藥物有效性。
在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟(jì)發(fā)展、維護(hù)社會穩(wěn)定等方面的重要作用。
大數(shù)據(jù)時代,科學(xué)研究的方法手段將發(fā)生重大改變。#
例如,抽樣調(diào)查是社會科學(xué)的基本研究方法,在大數(shù)據(jù)時代,研究人員可通過實時監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對策。
大數(shù)據(jù)時代的10個重大變化#
?
對研究范式的新認(rèn)識:從第三范式到第四范式#
2007 年 1 月,圖靈獎得主、關(guān)系型數(shù)據(jù)庫鼻祖 JimGray 發(fā)表演講,他憑著自己對于人類科學(xué)發(fā)展特征的深刻洞察,敏銳地指出科學(xué)的發(fā)展正在進(jìn)入“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”——科學(xué)史上的“第四范式”。
在他看來,人類科學(xué)研究活動已經(jīng)歷過三種不同范式的演變過程。
“第一范式”是指原始社會的“實驗科學(xué)范式”。18 世紀(jì)以前的科學(xué)進(jìn)步均屬于此列,其核心特征是對有限的客觀對象進(jìn)行觀察、總結(jié)、提煉,用歸納法找出其中的科學(xué)規(guī)律,如伽利略提出的物理學(xué)定律。
“第二范式”是指 19 世紀(jì)以來的理論科學(xué)階段,以模型和歸納為特征的“理論科學(xué)范式”。其核心特征是以演繹法為主,憑借科學(xué)家的智慧構(gòu)建理論大廈,如愛因斯坦提出的相對論、麥克斯方程組、量子理論和概率論等。
“第三范式”是指 20 世紀(jì)中期以來的計算科學(xué)階段的“計算科學(xué)范式”。面對大量過于復(fù)雜的現(xiàn)象,歸納法和演繹法都難以滿足科學(xué)研究的需求,人類開始借助計算機的高級運算能力對復(fù)雜現(xiàn)象進(jìn)行建模和預(yù)測,如天氣、地震、核試驗、原子的運動等。
然而,隨著近年來人類采集數(shù)據(jù)量的爆炸性增長,傳統(tǒng)的計算科學(xué)范式已經(jīng)越來越無力駕馭海量的科研數(shù)據(jù)了。例如,歐洲的大型粒子對撞機、天文領(lǐng)域的 Pan-STARRS 望遠(yuǎn)鏡每天產(chǎn)生的數(shù)據(jù)多達(dá)幾千萬億字節(jié)(PB)。很明顯,這些數(shù)據(jù)已經(jīng)突破了“第三范式”的處理極限,無法被科學(xué)家有效利用。
正因為如此,目前正在從“計算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”。
“第四范式”的主要特點是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數(shù)據(jù)時代,天文學(xué)家的研究方式發(fā)生了新的變化,其主要研究任務(wù)變?yōu)閺暮A繑?shù)據(jù)庫中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進(jìn)行太空拍照。
對數(shù)據(jù)重要性的新認(rèn)識:從數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)#
在大數(shù)據(jù)時代,數(shù)據(jù)不僅是一種“資源”,更是一種重要的“資產(chǎn)”。因此,數(shù)據(jù)科學(xué)應(yīng)把數(shù)據(jù)當(dāng)作一種“資產(chǎn)”來管理,而不能僅僅當(dāng)作“資源”來對待。也就是說,與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財務(wù)價值,且需要作為獨立實體進(jìn)行組織與管理。
大數(shù)據(jù)時代的到來,讓“數(shù)據(jù)即資產(chǎn)”成為最核心的產(chǎn)業(yè)趨勢。在這個“數(shù)據(jù)為王”的時代,回首信息產(chǎn)業(yè)發(fā)展的起起伏伏,我們發(fā)現(xiàn)產(chǎn)業(yè)興衰的決定性因素,已不是土地、人力、技術(shù)、資本這些傳統(tǒng)意義上的生產(chǎn)要素,而是曾經(jīng)被一度忽視的“數(shù)據(jù)資產(chǎn)”。
世界經(jīng)濟(jì)論壇報告曾經(jīng)預(yù)測稱,“未來的大數(shù)據(jù)將成為新的財富高地,其價值可能會堪比石油”,而大數(shù)據(jù)之父維克托也樂觀地表示,“數(shù)據(jù)列入企業(yè)資產(chǎn)負(fù)債表只是時間問題”。
“數(shù)據(jù)成為資產(chǎn)”是互聯(lián)網(wǎng)泛在化的一種資本體現(xiàn),它讓互聯(lián)網(wǎng)不僅具有應(yīng)用和服務(wù)本身的價值,而且具有了內(nèi)在的“金融”價值。數(shù)據(jù)不再只是體現(xiàn)于“使用價值”方面的產(chǎn)品,而成為實實在在的“價值”。
目前,作為數(shù)據(jù)資產(chǎn)先行者的 IT 企業(yè),如蘋果、谷歌、IBM、阿里、騰訊、百度等,無不想盡各種方式,挖掘多種形態(tài)的設(shè)備及軟件功能,收集各種類型的數(shù)據(jù),發(fā)揮大數(shù)據(jù)的商業(yè)價值,將傳統(tǒng)意義上的 IT 企業(yè),打造成為“終端+應(yīng)用+平臺+數(shù)據(jù)”四位一體的泛互聯(lián)網(wǎng)化企業(yè),以期在大數(shù)據(jù)時代獲取更大的收益。
大數(shù)據(jù)資產(chǎn)的價值的衡量尺度主要有以下 3 個方面的標(biāo)準(zhǔn)。
獨立擁有及控制數(shù)據(jù)資產(chǎn)#
目前,數(shù)據(jù)的所有權(quán)問題在業(yè)界還比較模糊。從擁有和控制的角度來看,數(shù)據(jù)可以分為 Ⅰ 型數(shù)據(jù)、Ⅱ 型數(shù)據(jù)和 Ⅲ 型數(shù)據(jù)。
Ⅰ 型數(shù)據(jù)主要是指數(shù)據(jù)的生產(chǎn)者自己生產(chǎn)出來的各種數(shù)據(jù),例如,百度對使用其搜索引擎的用戶的各種行為進(jìn)行收集、整理和分析,這類數(shù)據(jù)雖然由用戶產(chǎn)生,但產(chǎn)權(quán)卻屬于生產(chǎn)者,并最大限度地發(fā)揮其商業(yè)價值。
Ⅱ 型數(shù)據(jù)又稱為入口數(shù)據(jù),例如,各種電子商務(wù)營銷公司通過將自身的工具或插件植入電商平臺,來為其提供統(tǒng)計分析服務(wù),并從中獲取各類經(jīng)營數(shù)據(jù)。雖然這些數(shù)據(jù)的所有權(quán)并不屬于這些公司,在使用時也有一些規(guī)則限制,但是它們卻有著對數(shù)據(jù)實際的控制權(quán)。
相比于前兩類數(shù)據(jù),Ⅲ 型數(shù)據(jù)的產(chǎn)權(quán)情況比較復(fù)雜,它們主要依靠網(wǎng)絡(luò)爬蟲,甚至是黑客手段獲取數(shù)據(jù)。與 Ⅰ 型和 Ⅱ 型數(shù)據(jù)不同的是,這些公司流出的內(nèi)部數(shù)據(jù)放在網(wǎng)上供人付費下載。這種數(shù)據(jù)在當(dāng)前階段,還不能和資產(chǎn)完全畫等號。
計量規(guī)則與貨幣資本類似#
大數(shù)據(jù)要實現(xiàn)真正的資產(chǎn)化,用貨幣對海量數(shù)據(jù)進(jìn)行計量是一個大問題。盡管很多企業(yè)都意識到數(shù)據(jù)作為資產(chǎn)的可能性,但除了極少數(shù)專門以數(shù)據(jù)交易為主營業(yè)務(wù)的公司外,大多數(shù)公司都沒有為數(shù)據(jù)的貨幣計量做出適當(dāng)?shù)馁~務(wù)處理。
雖然數(shù)據(jù)作為資產(chǎn)尚未在企業(yè)財務(wù)中得到真正的引用,但將數(shù)據(jù)列入無形資產(chǎn)比較有利。
考慮到研發(fā)因素,很多高科技企業(yè)都具有較長的投入產(chǎn)出期,可以讓那些存儲在硬盤上的數(shù)據(jù)直接進(jìn)入資產(chǎn)負(fù)債表。對于通過交易手段獲得的數(shù)據(jù),可以按實際支付價款作為入賬價值計入無形資產(chǎn),從而為企業(yè)形成有效稅盾,降低企業(yè)實際稅負(fù)。
具有資本一般的增值屬性#
資本區(qū)別于一般產(chǎn)品的特征在于,它具有不斷增值的可能性。只有能夠利用數(shù)據(jù)、組合數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù)的企業(yè),他們手中的大數(shù)據(jù)資源才能成為數(shù)據(jù)資產(chǎn)。
目前,直接利用數(shù)據(jù)為企業(yè)帶來經(jīng)濟(jì)利益的方法主要有數(shù)據(jù)租售、信息租售、數(shù)據(jù)使能三種模式。
數(shù)據(jù)租售主要通過對業(yè)務(wù)數(shù)據(jù)進(jìn)行收集、整理、過濾、校對、打包、發(fā)布等一系列操作,實現(xiàn)數(shù)據(jù)內(nèi)在的價值。
信息租售則通過聚焦行業(yè)焦點,收集相關(guān)數(shù)據(jù),深度整合、萃取及分析,形成完整數(shù)據(jù)鏈條,實現(xiàn)數(shù)據(jù)的資產(chǎn)轉(zhuǎn)化。
數(shù)據(jù)使能是指類似于阿里這樣的互聯(lián)網(wǎng)公司通過提供大量的金融數(shù)據(jù)挖掘及分析服務(wù),為傳統(tǒng)金融行業(yè)難以下手的小額貸款業(yè)務(wù)開創(chuàng)新的行業(yè)增長點。
總而言之,作為信息時代核心的價值載體,大數(shù)據(jù)必然具有朝向價值本體轉(zhuǎn)化的趨勢,而它的“資產(chǎn)化”,或者未來更進(jìn)一步的“資本化”蛻變,將為未來完全信息化、泛互聯(lián)網(wǎng)化的商業(yè)模式打下基礎(chǔ)。
對方法論的新認(rèn)識:從基于知識到基于數(shù)據(jù)#
傳統(tǒng)的方法論往往是“基于知識”的,即從“大量實踐(數(shù)據(jù))”中總結(jié)和提煉出一般性知識(定理、模式、模型、函數(shù)等)之后,用知識去解決(或解釋)問題。因此,傳統(tǒng)的問題解決思路是“問題→知識→問題”,即根據(jù)問題找“知識”,并用“知識”解決“問題”。
然而,數(shù)據(jù)科學(xué)中興起了另一種方法論——“問題→數(shù)據(jù)→問題”,即根據(jù)“問題”找“數(shù)據(jù)”,并直接用“數(shù)據(jù)”(在不需要把“數(shù)據(jù)”轉(zhuǎn)換成“知識”的前提下)解決“問題”.
?
對數(shù)據(jù)分析的新認(rèn)識:從統(tǒng)計學(xué)到數(shù)據(jù)科學(xué)#
在傳統(tǒng)科學(xué)中,數(shù)據(jù)分析主要以數(shù)學(xué)和統(tǒng)計學(xué)為直接理論工具。但是,云計算等計算模式的出現(xiàn)及大數(shù)據(jù)時代的到來,提升了我們對數(shù)據(jù)的獲取、存儲、計算與管理能力,進(jìn)而對統(tǒng)計學(xué)理論與方法產(chǎn)生了深遠(yuǎn)影響。大數(shù)據(jù)帶給我們 4 個顛覆性的觀念轉(zhuǎn)變。
不是隨機樣本,而是全體數(shù)據(jù)#
在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機采樣。
以前我們通常把隨機采樣看成是理所應(yīng)當(dāng)?shù)南拗?#xff0c;但是真正的大數(shù)據(jù)時代是指不用隨機分析法這樣的捷徑,而采用對所有數(shù)據(jù)進(jìn)行分析的方法,通過觀察所有數(shù)據(jù),來尋找異常值進(jìn)行分析。
例如,信用卡詐騙是通過異常情況來識別的,只有掌握了所有數(shù)據(jù)才能做到這一點。在這種情況下,異常值是最有用的信息,可以把它與正常交易情況作對比從而發(fā)現(xiàn)問題。
不是純凈性,而是混雜性#
數(shù)據(jù)量的大幅增加會造成一些錯誤的數(shù)據(jù)混進(jìn)數(shù)據(jù)集。但是,正因為我們掌握了幾乎所有的數(shù)據(jù),所以我們不再擔(dān)心某個數(shù)據(jù)點對整套分析的不利影響。
我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價消除所有的不確定性。這就是由“小數(shù)據(jù)”到“大數(shù)據(jù)”的改變。
不是精確性,而是趨勢#
研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。之前需要分析的數(shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄,但隨著規(guī)模的擴(kuò)大,對精確度的癡迷將減弱。
擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨根問底,只要掌握了大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力。
例如,微信朋友圈中朋友發(fā)動態(tài)的時間,在一小時以內(nèi)的會顯示多少分鐘之前,在一小時以外的就只顯示幾小時前;微信公眾號中顯示的閱讀量,超過十萬以后顯示的就是 100000+,而不是具體數(shù)據(jù),因為超過十萬的閱讀量已經(jīng)讓我們覺得這篇文章很優(yōu)秀了,沒必要精確。
不是因果關(guān)系,而是相關(guān)關(guān)系#
在數(shù)據(jù)科學(xué)中,廣泛應(yīng)用“基于數(shù)據(jù)”的思維模式,重視對“相關(guān)性”的分析,而不是等到發(fā)現(xiàn)“真正的因果關(guān)系”之后才解決問題。
在大數(shù)據(jù)時代,人們開始重視相關(guān)分析,而不僅僅是因果分析。我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系。相關(guān)關(guān)系也許不能準(zhǔn)確地告訴我們某件事情為何會發(fā)生,但是它會告訴我們某件事情已經(jīng)發(fā)生了。
在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲。知道是什么就夠了,沒必要知道為什么。例如,知道用戶對什么感興趣即可,沒必要去研究用戶為什么感興趣。
相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)據(jù)關(guān)系。相關(guān)關(guān)系強是指當(dāng)一個數(shù)據(jù)值增加時,其他數(shù)據(jù)值很有可能也會隨之增加。相關(guān)關(guān)系是通過識別關(guān)聯(lián)物來幫助我們分析某一現(xiàn)象的,而不是揭示其內(nèi)部的運作。
通過找到一個現(xiàn)象良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測未來。例如,如果川和萬經(jīng)常一起發(fā)生,我們只需要注意方是否發(fā)生,就可以預(yù)測力是否也發(fā)生了。
對計算智能的新認(rèn)識:從復(fù)雜算法到簡單算法#
“只要擁有足夠多的數(shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時代的一個新認(rèn)識。因此,在大數(shù)據(jù)時代,原本復(fù)雜的“智能問題”變成簡單的“數(shù)據(jù)問題”。
只要對大數(shù)據(jù)進(jìn)行簡單查詢就可以達(dá)到“基于復(fù)雜算法的智能計算的效果”。為此,很多學(xué)者曾討論過一個重要話題——“大數(shù)據(jù)時代需要的是更多的數(shù)據(jù)還是更好的模型?”
機器翻譯是傳統(tǒng)自然語言技術(shù)領(lǐng)域的難點,雖曾提出過很多種算法,但應(yīng)用效果并不理想。IBM 有能力將《人民日報》歷年的文本輸入電腦,試圖破譯中文的語言結(jié)構(gòu)。
例如,實現(xiàn)中文的語音輸入或者中英互譯,這項技術(shù)在 20 世紀(jì) 90 年代就取得突破,但進(jìn)展緩慢,在應(yīng)用中還是有很多問題。近年來,Google 翻譯等工具改變了“實現(xiàn)策略”,不再依靠復(fù)雜算法進(jìn)行翻譯,而是通過對他們之前收集的跨語言語料庫進(jìn)行簡單查詢的方式,提升了機器翻譯的效果和效率。
他們并不教給電腦所有的語言規(guī)則,而是讓電腦自己去發(fā)現(xiàn)這些規(guī)則。電腦通過分析經(jīng)過人工翻譯的數(shù)以千萬計的文件來發(fā)現(xiàn)其中的規(guī)則。這些翻譯結(jié)果源自圖書、各種機構(gòu)(如聯(lián)合國)及世界各地的網(wǎng)站。
他們的電腦會掃描這些語篇,從中尋找在統(tǒng)計學(xué)上非常重要的模式,即翻譯結(jié)果和原文之間并非偶然產(chǎn)生的模式。一旦電腦找到了這些模式,今后它就能使用這些模式來翻譯其他類似的語篇。
通過數(shù)十億次重復(fù)使用,就會得出數(shù)十億種模式及一個異常聰明的電腦程序。但是對于某些語言來說,他們能夠使用到的已翻譯完成的語篇非常少,因此 Google 的軟件所探測到的模式就相對很少。這就是為什么 Google 的翻譯質(zhì)量會因語言對的不同而不同。
通過不斷向電腦提供新的翻譯語篇,Google 就能讓電腦更加聰明,翻譯結(jié)果更加準(zhǔn)確。
對管理目標(biāo)的新認(rèn)識:從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)業(yè)務(wù)化#
在傳統(tǒng)數(shù)據(jù)管理中,企業(yè)更加關(guān)注的是業(yè)務(wù)的數(shù)據(jù)化問題,即如何將業(yè)務(wù)活動以數(shù)據(jù)方式記錄下來,以便進(jìn)行業(yè)務(wù)審計、分析與挖掘。
在大數(shù)據(jù)時代,企業(yè)需要重視一個新的課題——數(shù)據(jù)業(yè)務(wù)化,即如何“基于數(shù)據(jù)”動態(tài)地定義、優(yōu)化和重組業(yè)務(wù)及其流程,進(jìn)而提升業(yè)務(wù)的敏捷性,降低風(fēng)險和成本。業(yè)務(wù)數(shù)據(jù)化是前提,而數(shù)據(jù)業(yè)務(wù)化是目標(biāo)。
電商的經(jīng)營模式與實體店最本質(zhì)的區(qū)別是,電商每賣出一件產(chǎn)品,都會留存一條詳盡的數(shù)據(jù)記錄。也正是因為可以用數(shù)字化的形式保留每一筆銷售的明細(xì),電商可以清楚地掌握每一件商品到底賣給了誰。
此外,依托互聯(lián)網(wǎng)這個平臺,電商還可以記錄每一個消費者的鼠標(biāo)單擊記錄、網(wǎng)上搜索記錄。所有這些記錄形成了一個關(guān)于消費者行為的實時數(shù)據(jù)閉環(huán),通過這個閉環(huán)中源源不斷產(chǎn)生的新鮮數(shù)據(jù),電商可以更好地洞察消費者,更及時地預(yù)測其需求的變化,經(jīng)營者和消費者之間因此產(chǎn)生了很強的黏性。
線下實體商店很難做到這一點,他們可能只知道一個省、一個市或者一個地區(qū)賣了多少商品,但是,他們很難了解到所生產(chǎn)、經(jīng)營的每一件商品究竟賣到了哪一個具體的地方、哪一個具體的人,這個人還買了其他什么東西、查看了哪些商品、可能會喜歡什么樣的商品。
也就是說,線下實體店即使收集了一些數(shù)據(jù),但其數(shù)據(jù)的粒度、寬度、廣度和深度都非常有限。由于缺乏足夠的數(shù)據(jù),實體店對自己的經(jīng)營行為,對消費者的洞察力,以及和消費者之間的黏性都十分有限。
就此而言,一家電商和一家線下實體店最本質(zhì)的區(qū)別就是是否保存了足夠的數(shù)據(jù)。其實,這正是互聯(lián)網(wǎng)化的核心和本質(zhì),即“數(shù)據(jù)化”。這并不是一個簡單的數(shù)據(jù)化,而是所有業(yè)務(wù)的過程都要數(shù)據(jù)化,即把所有的業(yè)務(wù)過程記錄下來,形成一個數(shù)據(jù)的閉環(huán),這個閉環(huán)的實時性和效率是關(guān)鍵的指標(biāo)。這個思想就是一切業(yè)務(wù)都要數(shù)據(jù)化。
在大數(shù)據(jù)時代,企業(yè)不僅僅是把業(yè)務(wù)數(shù)據(jù)化,更重要的是把數(shù)據(jù)業(yè)務(wù)化,也就是把數(shù)據(jù)作為直接生產(chǎn)力,將數(shù)據(jù)價值直接通過前臺產(chǎn)品作用于消費者。
數(shù)據(jù)可以反映用戶過去的行為軌跡,也可以預(yù)測用戶將來的行為傾向。比較好理解的一個實例就是關(guān)聯(lián)推薦,當(dāng)用戶買了一個商品之后,可以給用戶推薦一個最有可能再買的商品。個性化是數(shù)據(jù)作為直接生產(chǎn)力的一個具體體現(xiàn)。
隨著數(shù)據(jù)分析工具與數(shù)據(jù)挖掘渠道的日益豐富與多樣化,數(shù)據(jù)存量越來越大,數(shù)據(jù)對企業(yè)也越來越重要。數(shù)據(jù)業(yè)務(wù)化能夠給企業(yè)帶來的業(yè)務(wù)價值主要包括以下幾點:提高生產(chǎn)過程的資源利用率,降低生產(chǎn)成本;根據(jù)商業(yè)分析提高商業(yè)智能的準(zhǔn)確率,降低傳統(tǒng)“憑感覺”做決策的業(yè)務(wù)風(fēng)險;動態(tài)價格優(yōu)化利潤和增長;獲取優(yōu)質(zhì)客戶。
目前,越來越多的企業(yè)級用戶已經(jīng)考慮從批量分析向近實時分析發(fā)展,從而提高 IT 創(chuàng)造價值的能力。同時,數(shù)據(jù)分析在快速從商業(yè)智能向用戶智能發(fā)展。數(shù)據(jù)業(yè)務(wù)化可以讓數(shù)據(jù)給企業(yè)創(chuàng)造額外收益和價值。
對決策方式的新認(rèn)識:從目標(biāo)驅(qū)動型到數(shù)據(jù)驅(qū)動型#
傳統(tǒng)科學(xué)思維中,決策制定往往是“目標(biāo)”或“模型”驅(qū)動的,也就是根據(jù)目標(biāo)(或模型)進(jìn)行決策。然而,大數(shù)據(jù)時代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動型決策,數(shù)據(jù)成為決策制定的主要“觸發(fā)條件”和“重要依據(jù)”。
小數(shù)據(jù)時代,企業(yè)討論什么事情該做不該做,許多時候是憑感覺來決策的,流程如圖所示,由兩個環(huán)節(jié)組成:一個是拍腦袋,另一個是研發(fā)功能。
?
基本上就是產(chǎn)品經(jīng)理通過一些調(diào)研,想了一個功能,做了設(shè)計。下一步就是把這個功能研發(fā)出來,然后看一下效果如何,再做下一步。
整個過程都是憑一些感覺來決策。這種方式總是會出現(xiàn)問題,很容易走一些彎路,很有可能做出錯誤的決定。
數(shù)據(jù)驅(qū)動型決策加入了數(shù)據(jù)分析環(huán)節(jié),如圖所示。
?
基本流程就是企業(yè)有一些點子,通過點子去研發(fā)這些功能,之后要進(jìn)行數(shù)據(jù)收集,然后進(jìn)行數(shù)據(jù)分析。基于數(shù)據(jù)分析得到一些結(jié)論,然后基于這些結(jié)論,再去進(jìn)行下一步的研發(fā)。整個過程就形成了一個循環(huán)。在這種決策流程中,人為的因素影響越來越少,而主要是用一種科學(xué)的方法來進(jìn)行產(chǎn)品的迭代。
例如,一個產(chǎn)品的界面到底是綠色背景好還是藍(lán)色背景好,從設(shè)計的層面考慮,兩者是都有可能的。那么就可以做一下 A/B 測試。
可以讓 50% 的人顯示綠色背景,50% 的人顯示藍(lán)色背景,然后看用戶點擊量。哪個點擊比較多,就選擇哪個。這就是數(shù)據(jù)驅(qū)動,這樣就轉(zhuǎn)變成不是憑感覺,而是通過數(shù)據(jù)去決策。
相比于基于本能、假設(shè)或認(rèn)知偏見而做出的決策,基于證據(jù)的決策更可靠。通過數(shù)據(jù)驅(qū)動的方法,企業(yè)能夠判斷趨勢,從而展開有效行動,幫助自己發(fā)現(xiàn)問題,推動創(chuàng)新或解決方案的出現(xiàn)。
對產(chǎn)業(yè)競合關(guān)系的新認(rèn)識:從以戰(zhàn)略為中心到以數(shù)據(jù)為中心#
在大數(shù)據(jù)時代,企業(yè)之間的競合關(guān)系發(fā)生了變化,原本相互競爭,甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。
所謂競合關(guān)系,即在競爭中合作,在合作中競爭。它的核心思想主要體現(xiàn)在兩個方面:創(chuàng)造價值與爭奪價值。創(chuàng)造價值是個體之間相互合作、共創(chuàng)價值的過程;爭奪價值則是個體之間相互競爭、分享價值的過程。
競合的思想就是要求所有參與者共同把蛋糕做大,每個參與者最終分得的部分都會相應(yīng)增加。
傳統(tǒng)的競合關(guān)系以戰(zhàn)略為中心,德國寶馬汽車公司和戴姆勒公司旗下的奔馳品牌在整車制造領(lǐng)域存在著品牌競爭,但雙方不僅共同開發(fā)、生產(chǎn)及采購汽車零部件,而且在混合動力技術(shù)——領(lǐng)域進(jìn)行研究合作。
為了能夠在激烈的市場競爭中獲取優(yōu)勢,兩家公司通過競合戰(zhàn)略,互通有無、共享資源,從而在汽車業(yè)整體利潤下滑的趨勢下獲得相對較好的收益,最終取得雙贏。
在大數(shù)據(jù)時代,競合關(guān)系是以數(shù)據(jù)為中心的。數(shù)據(jù)產(chǎn)業(yè)就是從信息化過程累積的數(shù)據(jù)資源中提取有用信息進(jìn)行創(chuàng)新,并將這些數(shù)據(jù)創(chuàng)新賦予商業(yè)模式。
這種由大數(shù)據(jù)創(chuàng)新所驅(qū)動的產(chǎn)業(yè)化過程具有“提升其他產(chǎn)業(yè)利潤”的特征,除了能探索新的價值發(fā)現(xiàn)、創(chuàng)造與獲取方式以謀求本身發(fā)展外,還能幫助傳統(tǒng)產(chǎn)業(yè)突破瓶頸、升級轉(zhuǎn)型,是一種新的競合關(guān)系,而非一般觀點的“新興科技催生的經(jīng)濟(jì)業(yè)態(tài)與原有經(jīng)濟(jì)業(yè)態(tài)存在競爭關(guān)系”。
所以,數(shù)據(jù)產(chǎn)業(yè)培育圍繞傳統(tǒng)經(jīng)濟(jì)升級轉(zhuǎn)型,依附傳統(tǒng)行業(yè)企業(yè)共生發(fā)展,是最好的發(fā)展策略。例如,近年來發(fā)展火熱的團(tuán)購,就是數(shù)據(jù)產(chǎn)業(yè)幫助傳統(tǒng)餐飲業(yè)、旅游業(yè)和交通行業(yè)的升級轉(zhuǎn)型。提供團(tuán)購業(yè)務(wù)的企業(yè)在獲得收益的同時,也提高了其他傳統(tǒng)行業(yè)的效益。
但是,傳統(tǒng)企業(yè)與團(tuán)購企業(yè)也存在著一定的競爭關(guān)系。傳統(tǒng)企業(yè)在與團(tuán)購企業(yè)合作的過程中,也盡力防止自己的線下業(yè)務(wù)全部轉(zhuǎn)為自己不能掌控的團(tuán)購企業(yè)。
團(tuán)購網(wǎng)站為了能獲得更廣的用戶群、更大的流量來提升自己的市場地位,除了自身擴(kuò)展商戶和培養(yǎng)網(wǎng)民習(xí)慣之外,還紛紛采取了合縱連橫的發(fā)展戰(zhàn)略。
聚劃算、京東團(tuán)購、當(dāng)當(dāng)團(tuán)購、58 團(tuán)購等紛紛開放平臺,吸引了千品網(wǎng)、高朋、滿座、窩窩等團(tuán)購網(wǎng)站的入駐,投奔平臺正在成為行業(yè)共識。
對于獨立團(tuán)購網(wǎng)站來說,入駐電商平臺不僅能帶來流量,電商平臺在實物銷售上的積累對其實物團(tuán)購也有一定的促進(jìn)作用。
對數(shù)據(jù)復(fù)雜性的新認(rèn)識:從不接受到接受數(shù)據(jù)的復(fù)雜性#
在傳統(tǒng)科學(xué)看來,數(shù)據(jù)需要徹底“凈化”和“集成”,計算目的是需要找出“精確答案”,而其背后的哲學(xué)是“不接受數(shù)據(jù)的復(fù)雜性”。
然而,大數(shù)據(jù)中更加強調(diào)的是數(shù)據(jù)的動態(tài)性、異構(gòu)性和跨域等復(fù)雜性,開始把“復(fù)雜性”當(dāng)作數(shù)據(jù)的一個固有特征來對待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標(biāo)開始轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。
在小數(shù)據(jù)時代,對于數(shù)據(jù)的存儲與檢索一直依賴于分類法和索引法的機制,這種機制是以預(yù)設(shè)場域為前提的。這種結(jié)構(gòu)化數(shù)據(jù)庫的預(yù)設(shè)場域能夠卓越地展示數(shù)據(jù)的整齊排列與準(zhǔn)確存儲,與追求數(shù)據(jù)的精確性目標(biāo)是完全一致的。
在數(shù)據(jù)稀缺與問題清晰的年代,這種基于預(yù)設(shè)的結(jié)構(gòu)化數(shù)據(jù)庫能夠有效地回答人們的問題,并且這種數(shù)據(jù)庫在不同的時間能夠提供一致的結(jié)果。
面對大數(shù)據(jù),數(shù)據(jù)的海量、混雜等特征會使預(yù)設(shè)的數(shù)據(jù)庫系統(tǒng)崩潰。其實,數(shù)據(jù)的紛繁雜亂才真正呈現(xiàn)出世界的復(fù)雜性和不確定性特征,想要獲得大數(shù)據(jù)的價值,承認(rèn)混亂而不是避免混亂才是一種可行的路徑。
為此,伴隨著大數(shù)據(jù)的涌現(xiàn),出現(xiàn)了非關(guān)系型數(shù)據(jù)庫,它不需要預(yù)先設(shè)定記錄結(jié)構(gòu),而且允許處理各種各樣形形色色參差不齊的數(shù)據(jù)。
因為包容了結(jié)構(gòu)的多樣性,這些無須預(yù)設(shè)的非關(guān)系型數(shù)據(jù)庫設(shè)計能夠處理和存儲更多的數(shù)據(jù),成為大數(shù)據(jù)時代的重要應(yīng)對手段。
在大數(shù)據(jù)時代,海量數(shù)據(jù)的涌現(xiàn)一定會增加數(shù)據(jù)的混亂性且會造成結(jié)果的不準(zhǔn)確性,如果仍然依循準(zhǔn)確性,那么將無法應(yīng)對這個新的時代。
大數(shù)據(jù)通常都用概率說話,與數(shù)據(jù)的混雜性可能帶來的結(jié)果錯誤性相比,數(shù)據(jù)量的擴(kuò)張帶給我們的新洞察、新趨勢和新價值更有意義。
因此,與致力于避免錯誤相比,對錯誤的包容將會帶給我們更多信息。其實,允許數(shù)據(jù)的混雜性和容許結(jié)果的不精確性才是我們擁抱大數(shù)據(jù)的正確態(tài)度,未來我們應(yīng)當(dāng)習(xí)慣這種思維。
對數(shù)據(jù)處理模式的新認(rèn)識:從小眾參與到大眾協(xié)同#
在傳統(tǒng)科學(xué)中,數(shù)據(jù)的分析和挖掘都是具有很高專業(yè)素養(yǎng)的“企業(yè)核心員工”的事情,企業(yè)管理的重要目的是如何激勵和考核這些“核心員工”。
但是,在大數(shù)據(jù)時代,基于“核心員工”的創(chuàng)新工作成本和風(fēng)險越來越大,而基于“專家余(Pro-AmT 的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。
大規(guī)模生產(chǎn)讓數(shù)以百計的人買得起商品,但商品本身卻是一模一樣的。
企業(yè)面臨這樣一個矛盾:定制化的產(chǎn)品更能滿足用戶的需求,但卻非常昂貴;與此同時,量產(chǎn)化的商品價格低廉,但無法完全滿足用戶的需求。
如果能夠做到大規(guī)模定制,為大量用戶定制產(chǎn)品和服務(wù),則能使產(chǎn)品成本低,又兼具個性化,從而使企業(yè)有能力滿足要求,但價格又不至于像手工制作那般讓人無法承擔(dān)。
因此,在企業(yè)可以負(fù)擔(dān)得起大規(guī)模定制帶來的高成本的前提下,要真正做到個性化產(chǎn)品和服務(wù),就必須對用戶需求有很好的了解,這就需要用戶提前參與到產(chǎn)品設(shè)計中。
在大數(shù)據(jù)時代,用戶不再僅僅熱衷于消費,他們更樂于參與到產(chǎn)品的創(chuàng)造過程中,大數(shù)據(jù)技術(shù)讓用戶參與創(chuàng)造與分享成果的需求得到實現(xiàn)。
市場上傳統(tǒng)的著名品牌越來越重視從用戶的反饋中改進(jìn)產(chǎn)品的后續(xù)設(shè)計和提高用戶體驗,例如,“小米”這樣的新興品牌建立了互聯(lián)網(wǎng)用戶粉絲論壇,讓用戶直接參與到新產(chǎn)品的設(shè)計過程之中,充分發(fā)揮用戶豐富的想象力,企業(yè)也能直接了解他們的需求。
大眾協(xié)同的另一個方面就是企業(yè)可以利用用戶完成數(shù)據(jù)的采集,如實時車輛交通數(shù)據(jù)采集商 Inrix。該公司目前有一億個手機端用戶,Inrix 的軟件可以幫助用戶避開堵車,為用戶呈現(xiàn)路的熱量圖。
提供數(shù)據(jù)并不是這個產(chǎn)品的特色,但值得一提的是,Inrix 并沒有用交警的數(shù)據(jù),這個軟件的每位用戶在使用過程中會給服務(wù)器發(fā)送實時數(shù)據(jù),如速度和位置,這樣每個用戶都是探測器。使用該服務(wù)的用戶越多,Inrix 獲得的數(shù)據(jù)就越多,從而可以提供更好的服務(wù)。
大數(shù)據(jù)處理的基本流程:數(shù)據(jù)抽取與集成+數(shù)據(jù)分析+數(shù)據(jù)解釋#
大數(shù)據(jù)的數(shù)據(jù)來源廣泛,應(yīng)用需求和數(shù)據(jù)類型都不盡相同,但是最基本的處理流程是一致的。
整個大數(shù)據(jù)的處理流程可以定義為,在合適工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,將結(jié)果按照一定的標(biāo)準(zhǔn)進(jìn)行統(tǒng)一存儲,然后利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識,并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。
具體來講,大數(shù)據(jù)處理的基本流程可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋等步驟。
數(shù)據(jù)抽取與集成#
大數(shù)據(jù)的一個重要特點就是多樣性,這就意味著數(shù)據(jù)來源極其廣泛,數(shù)據(jù)類型極為繁雜。這種復(fù)雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來極大的挑戰(zhàn)。
要想處理大數(shù)據(jù),首先必須對所需數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和集成,從中提取出數(shù)據(jù)的實體和關(guān)系,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲這些數(shù)據(jù)。
在數(shù)據(jù)集成和提取時,需要對數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量及可信性。同時還要特別注意大數(shù)據(jù)時代數(shù)據(jù)模式和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時代的數(shù)據(jù)往往是先有數(shù)據(jù)再有模式,并且模式是在不斷的動態(tài)演化之中的。
數(shù)據(jù)抽取和集成技術(shù)并不是一項全新的技術(shù),在傳統(tǒng)數(shù)據(jù)庫領(lǐng)域此問題就已經(jīng)得到了比較成熟的研究。隨著新的數(shù)據(jù)源的涌現(xiàn),數(shù)據(jù)集成方法也在不斷的發(fā)展之中。
從數(shù)據(jù)集成模型來看,現(xiàn)有的數(shù)據(jù)抽取與集成方式可以大致分為 4 種類型:基于物化或 ETL 方法的引擎、基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎、基于數(shù)據(jù)流方法的引擎,以及基于搜索引擎的方法。
數(shù)據(jù)分析#
數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程的核心,大數(shù)據(jù)的價值產(chǎn)生于分析過程。
從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù)。根據(jù)不同應(yīng)用的需求可以從這些數(shù)據(jù)中選擇全部或部分進(jìn)行分析。
小數(shù)據(jù)時代的分析技術(shù),如統(tǒng)計分析、數(shù)據(jù)挖掘和機器學(xué)習(xí)等,并不能適應(yīng)大數(shù)據(jù)時代數(shù)據(jù)分析的需求,必須做出調(diào)整。大數(shù)據(jù)時代的數(shù)據(jù)分析技術(shù)面臨著一些新的挑戰(zhàn),主要有以下幾點。
數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價值的增加,相反這往往意味著數(shù)據(jù)噪音的增多。#
因此,在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作,但是預(yù)處理如此大量的數(shù)據(jù),對于計算資源和處理算法來講都是非常嚴(yán)峻的考驗。
大數(shù)據(jù)時代的算法需要進(jìn)行調(diào)整。#
首先,大數(shù)據(jù)的應(yīng)用常常具有實時性的特點,算法的準(zhǔn)確率不再是大數(shù)據(jù)應(yīng)用的最主要指標(biāo)。
在很多場景中,算法需要在處理的實時性和準(zhǔn)確率之間取得一個平衡。其次,分布式并發(fā)計算系統(tǒng)是進(jìn)行大數(shù)據(jù)處理的有力工具,這就要求很多算法必須做出調(diào)整以適應(yīng)分布式并發(fā)的計算框架,算法需要變得具有可擴(kuò)展性。
許多傳統(tǒng)的數(shù)據(jù)挖掘算法都是線性執(zhí)行的,面對海量的數(shù)據(jù)很難在合理的時間內(nèi)獲取所需的結(jié)果。因此需要重新把這些算法實現(xiàn)成可以并發(fā)執(zhí)行的算法,以便完成對大數(shù)據(jù)的處理。
最后,在選擇算法處理大數(shù)據(jù)時必須謹(jǐn)慎,當(dāng)數(shù)據(jù)量增長到一定規(guī)模以后,可以從小量數(shù)據(jù)中挖掘出有效信息的算法并一定適用于大數(shù)據(jù)。
數(shù)據(jù)結(jié)果的衡量標(biāo)準(zhǔn)。#
對大數(shù)據(jù)進(jìn)行分析比較困難,但是對大數(shù)據(jù)分析結(jié)果好壞的衡量卻是大數(shù)據(jù)時代數(shù)據(jù)分析面臨的更大挑戰(zhàn)。
大數(shù)據(jù)時代的數(shù)據(jù)量大,類型混雜,產(chǎn)生速度快,進(jìn)行分析的時候往往對整個數(shù)據(jù)的分布特點掌握得不太清楚,從而會導(dǎo)致在設(shè)計衡量的方法和指標(biāo)的時候遇到許多困難。
數(shù)據(jù)解釋#
數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,但是用戶往往更關(guān)心對結(jié)果的解釋。如果分析的結(jié)果正確,但是沒有采用適當(dāng)?shù)姆椒ㄟM(jìn)行解釋,則所得到的結(jié)果很可能讓用戶難以理解,極端情況下甚至?xí)鹩脩舻恼`解。
數(shù)據(jù)解釋的方法很多,比較傳統(tǒng)的解釋方式就是以文本形式輸出結(jié)果或者直接在電腦終端上顯示結(jié)果。這些方法在面對小數(shù)據(jù)量時是一種可行的選擇。
但是大數(shù)據(jù)時代的數(shù)據(jù)分析結(jié)果往往也是海量的,同時結(jié)果之間的關(guān)聯(lián)關(guān)系極其復(fù)雜,采用傳統(tǒng)的簡單解釋方法幾乎是不可行的。
解釋大數(shù)據(jù)分析結(jié)果時,可以考慮從以下兩個方面提升數(shù)據(jù)解釋能力。
引入可視化技術(shù)。#
可視化作為解釋大量數(shù)據(jù)最有效的手段之一率先被科學(xué)與工程計算領(lǐng)域采用。
該方法通過將分析結(jié)果以可視化的方式向用戶展示,可以使用戶更易理解和接受。常見的可視化技術(shù)有標(biāo)簽云、歷史流、空間信息流等。
讓用戶能夠在一定程度上了解和參與具體的分析過程。#
這方面既可以采用人機交互技術(shù),利用交互式的數(shù)據(jù)分析過程來引導(dǎo)用戶逐步地進(jìn)行分析,使得用戶在得到結(jié)果的同時更好地理解分析結(jié)果的過程,也可以采用數(shù)據(jù)溯源技術(shù)追溯整個數(shù)據(jù)分析的過程,幫助用戶理解結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的大数据是什么?一篇文章正确告诉你的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网络互联技术
- 下一篇: Velocity模板语言(VTL):说明