1.1 大数据概论
?
1.1 大數(shù)據(jù)概論
任務(wù)目的
- 了解大數(shù)據(jù)的概念及其特征
- 熟悉大數(shù)據(jù)的典型應(yīng)用場景
- 了解大數(shù)據(jù)部門的業(yè)務(wù)流程
任務(wù)清單
- 任務(wù)1:大數(shù)據(jù)概念
- 任務(wù)2:大數(shù)據(jù)特點
- 任務(wù)3:大數(shù)據(jù)應(yīng)用場景
- 任務(wù)4:大數(shù)據(jù)發(fā)展前景
- 任務(wù)5:業(yè)務(wù)流程分析
任務(wù)1:大數(shù)據(jù)概念
何謂“大數(shù)據(jù)”(Big Data),“大數(shù)據(jù)”計量單位已經(jīng)超過TB級別發(fā)展到PB、EB、ZB、YB甚至是BB級別。
“大數(shù)據(jù)”是一個較為抽象的概念,至今尚無確切、統(tǒng)一的定義,各方對“大數(shù)據(jù)”給出了10余種不同的定義,比較典型的是:
最早提出“大數(shù)據(jù)”這一概念的全球知名咨詢公司麥肯錫的定義:“大數(shù)據(jù)”是指在一定時間內(nèi)無法用傳統(tǒng)數(shù)據(jù)庫軟件工具采集、存儲、管理和分析其內(nèi)容的數(shù)據(jù)集合。
研究機構(gòu)Gartner是這樣定義“大數(shù)據(jù)”的:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
若從技術(shù)角度來看,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
任務(wù)2:大數(shù)據(jù)特點
一般認為,大數(shù)據(jù)主要具有以下5個方面的典型特征,即規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、價值性(Value)、以及真實性(Veracity),即所謂的5V,接下來,通過一張圖來具體描述。
?
接下來針對圖中的 5V 特征進行簡要介紹,具體如下。
1. 規(guī)模性(Volume)
大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大。
從前MP3時代,一個小小的MB級別的MP3就可以滿足很多人的需求,然而隨著時間的推移,存儲單位從過去的GB到TB,乃至現(xiàn)在的PB、EB級別。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長。社交網(wǎng)絡(luò)(微博、推特、臉書)、移動網(wǎng)絡(luò)、各種智能工具,服務(wù)工具等,都成為數(shù)據(jù)的來源。
淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。迫切需要智能的算法、強大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術(shù),來統(tǒng)計、分析、預(yù)測和實時處理如此大規(guī)模的數(shù)據(jù)。
數(shù)據(jù)相關(guān)計量單位的換算關(guān)系下表所示:
2. 多樣性(Variety)
廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)可以分為三類:
一是結(jié)構(gòu)化數(shù)據(jù),指的是可以使用關(guān)系型數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的數(shù)據(jù)。一般特點是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體的信息,每一行數(shù)據(jù)的屬性是相同的。如財務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等;
二是非結(jié)構(gòu)化的數(shù)據(jù),指的是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。如視頻、圖片、音頻等;
三是半結(jié)構(gòu)化數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù),屬于同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。如HTML文檔、JSON數(shù)據(jù)、郵件、網(wǎng)頁等。
有統(tǒng)計顯示,目前結(jié)構(gòu)化數(shù)據(jù)占據(jù)整個互聯(lián)網(wǎng)數(shù)據(jù)量的75%以上,而產(chǎn)生價值的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。
3. 高速性(Velocity)
數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。與以往的報紙、書信等傳統(tǒng)數(shù)據(jù)載體生產(chǎn)傳播方式不同,在大數(shù)據(jù)時代,大數(shù)據(jù)的交換和傳播主要是通過互聯(lián)網(wǎng)和云計算等方式實現(xiàn)的,其生產(chǎn)和傳播數(shù)據(jù)的速度是非常迅速的。
另外,海量數(shù)據(jù)的背后帶來的是更大的挑戰(zhàn),即如何快速計算分析大數(shù)據(jù)已經(jīng)成為當下熱門的話題。舉個常見的例子,我們經(jīng)常使用百度搜索去找自己想要的商品,那么百度是在成千上萬的結(jié)果中毫秒級的找到符合你關(guān)鍵詞的選項呢,這就需要大數(shù)據(jù)的高速處理能力。
4. 價值性(Value)
大數(shù)據(jù)的核心特征是價值,其實價值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價值密度越低數(shù)據(jù)總量越大。
任何有價值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù)。當然,目前大數(shù)據(jù)背景下有個未解決的問題,如何通過強大的機器算法更迅速地在海量數(shù)據(jù)中完成數(shù)據(jù)的價值提純。
5. 真實性(Veracity)
真實性,其實就是數(shù)據(jù)的質(zhì)量,海量數(shù)據(jù)并不一定都能反映用戶真實的行為信息或者客觀事物的真實信息。以網(wǎng)頁訪客數(shù)據(jù)為例,很多網(wǎng)站為了賺取更多的廣告費用,會使用作弊機器人對廣告進行點擊,這樣其實就造成了作弊流量,而這些流量并不能反映用戶真實需求。
任務(wù)3:大數(shù)據(jù)應(yīng)用場景
大數(shù)據(jù)無處不在,大數(shù)據(jù)應(yīng)用于各個行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
1. 電商大數(shù)據(jù)——精準營銷法寶
電商是最早利用大數(shù)據(jù)進行精準營銷的行業(yè),除了精準營銷,電商可以依據(jù)客戶消費習慣來提前為客戶備貨,并利用便利店作為貨物中轉(zhuǎn)點,在客戶下單15分鐘內(nèi)將貨物送上門,提高客戶體驗。
例如:馬云的菜鳥網(wǎng)絡(luò)宣稱的24小時完成在中國境內(nèi)的送貨;以及劉強東宣傳未來京東將在15分鐘完成送貨上門都是基于客戶消費習慣的大數(shù)據(jù)分析和預(yù)測。
2. 金融大數(shù)據(jù)——財源滾滾來
隨著大數(shù)據(jù)技術(shù)的應(yīng)用,越來越多的金融企業(yè)也開始投身到大數(shù)據(jù)應(yīng)用實踐中。
麥肯錫的一份研究顯示,金融業(yè)在大數(shù)據(jù)價值潛力指數(shù)中排名第一。
典型的案例有:花旗銀行利用IBM沃森電腦為財富管理客戶推薦產(chǎn)品;美國銀行利用客戶點擊數(shù)據(jù)集為客戶提供特色服務(wù),如有競爭的信用額度;招商銀行利用客戶刷卡、存取款、電子銀行轉(zhuǎn)帳、微信評論等行為數(shù)據(jù)進行分析,每周給客戶發(fā)送針對性廣告信息,里面有顧客可能感興趣的產(chǎn)品和優(yōu)惠信息。
可見,大數(shù)據(jù)在金融行業(yè)的應(yīng)用可以總結(jié)為以下五個方面:精準營銷、風險管控、決策支持、效率提升以及產(chǎn)品設(shè)計。
3. 醫(yī)療大數(shù)據(jù)——看病更高效
大數(shù)據(jù)讓就醫(yī)、看病更簡單。隨著大數(shù)據(jù)在醫(yī)療行業(yè)的深度融合,大數(shù)據(jù)平臺積累了海量的病例、病例報告、治愈方案、藥物報告等信息資源,所有常見的病例、既往病例等都記錄在案,醫(yī)生通過有效、連續(xù)的診療記錄,能夠給病人優(yōu)質(zhì)、合理的診療方案。這樣不僅提高醫(yī)生的看病效率,而且能夠降低誤診率,從而讓患者在最短的時間接受最好的治療。
4. 零售大數(shù)據(jù)——最懂消費者
零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個層面,一個層面是零售行業(yè)可以了解客戶消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一層面是依據(jù)客戶購買產(chǎn)品,為客戶提供可能購買的其它產(chǎn)品,擴大銷售額,也屬于精準營銷范疇。例如:美國零售業(yè)的傳奇故事——“啤酒與尿布”。
5. 交通大數(shù)據(jù)——暢通出行
交通作為人類行為的重要組成和重要條件之一,對于大數(shù)據(jù)的感知也是最急迫的。目前,交通的大數(shù)據(jù)應(yīng)用主要在兩個方面,一方面可以利用大數(shù)據(jù)傳感器數(shù)據(jù)來了解車輛通行密度,合理進行道路規(guī)劃包括單行線路規(guī)劃。另一方面可以利用大數(shù)據(jù)來實現(xiàn)即時信號燈調(diào)度,提高已有線路運行能力。
6. 輿情監(jiān)控大數(shù)據(jù)——名偵探柯南
《黑貓警長》大家都很熟悉,它講述的是“黑貓警長”如何精明能干、對壞人窮追不舍、跌宕起伏的故事情節(jié)。拿到大數(shù)據(jù)時代背景下的話,雖然它也能體現(xiàn)“黑貓警長”的盡職盡責、聰明能干,但更多的會歸結(jié)到一個問題:為何還是如此的被動、低效?疾病可以預(yù)防,難道犯罪不能預(yù)防么?
答案是肯定的。國家正在將大數(shù)據(jù)技術(shù)用于輿情監(jiān)控,其收集到的數(shù)據(jù)除了解民眾訴求,降低群體事件之外,還可以用于犯罪管理。
任務(wù)4:大數(shù)據(jù)發(fā)展前景
1. 大數(shù)據(jù)發(fā)展前景之國家政策
黨的十八大提出“實施國家大數(shù)據(jù)戰(zhàn)略”,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,大數(shù)據(jù)技術(shù)和應(yīng)用處于創(chuàng)新突破期,國內(nèi)市場需求處于爆發(fā)期,我國大數(shù)據(jù)產(chǎn)業(yè)面臨重要的發(fā)展機遇。
黨的十九大提出“推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”。
?
2. 大數(shù)據(jù)發(fā)展前景之國際方面
國際數(shù)據(jù)公司IDC預(yù)測,到2020年,企業(yè)基于大數(shù)據(jù)計算分析平臺的支出將突破5000億美元。目前,我國大數(shù)據(jù)人才只有46萬,未來3到5年人才缺口達150萬之多。
?
3. 大數(shù)據(jù)發(fā)展前景之高校方面
2016年北京大學、對外經(jīng)濟貿(mào)易大學、中南大學首次成功申請到“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”本科新專業(yè)。2017年,第二批32所高校獲批。2018年教育部最新公布的高校新增專業(yè)名單中,有248所學校獲批,是過去兩次審批通過額度近8倍。
?
目前,全國共有283所本科高校開設(shè)“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”專業(yè),270所高職院校成功申報“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè),199所本科高校在建設(shè)人工智能專業(yè)。
任務(wù)5:業(yè)務(wù)流程分析
?
? ? ?2.數(shù)據(jù)部門搭建數(shù)據(jù)平臺、分析數(shù)據(jù)指標
?
? ? ?3.數(shù)據(jù)可視化(報表展示,郵件發(fā)送,Echarts)
?
?
總結(jié)
- 上一篇: CCNA-01-GNS3仿真环境搭建及c
- 下一篇: 华为HCNP基础内容