大数据系统基础 | 绪论
1 什么是大數(shù)據(jù)
1、Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing apllications.
-http://en.wikipedia.org/wiki/Big_data
2、如果一個數(shù)據(jù)集的規(guī)?;蛘呤瞧涮幚淼膹碗s性,用傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)難以駕馭的話,我們就把這樣的數(shù)據(jù)集稱為大數(shù)據(jù)。
3、大數(shù)據(jù)系統(tǒng)是用于大數(shù)據(jù)分析處理的軟件系統(tǒng)。
2 大數(shù)據(jù)典型應用
1、沃爾瑪“啤酒加尿布”經(jīng)典案例,1993年
2、塔吉特百貨孕婦營銷分析,2002年
3、谷歌對流感的成功預測,2009年
4、奧巴馬借助大數(shù)據(jù)連任成功,2012年
5、微軟大數(shù)據(jù)成功預測奧斯卡21項大獎,2013年
3 大數(shù)據(jù)的特點
1、大數(shù)據(jù)的規(guī)模,從TB,PB,EB,ZB甚至到了ZB級
2、多樣的數(shù)據(jù)類型
(1)結(jié)構(gòu)化數(shù)據(jù)(關系):先有模式,后有數(shù)據(jù)
(2)半結(jié)構(gòu)化數(shù)據(jù)(XML):先有部分模式
(3)非結(jié)構(gòu)化數(shù)據(jù)(文本):先有數(shù)據(jù),后有模式
3、大數(shù)據(jù)分析生命周期
獲取、記錄–>抽取、清洗–>集成、聚合–>分析、建模–>解釋、展示
5個共性的基礎問題:異構(gòu)、規(guī)模、時效、隱私、協(xié)同
4、大數(shù)據(jù)深度加工
(1)數(shù)據(jù)Raw data
i.e.,uprocessed data,refers to a collection of numbers,characters and is a relative term
(2)信息Information
is that which informs,i.e. that from which data can be derived.
(3)知識Knowledge
can refer to a theoretical or practical understanding of a subject.
(4)智慧Insight
is the understanding of a specific cause and effect in a specitfic context
5、大數(shù)據(jù)處理方式
(1)批量 Batch
(2)在線 Online
(3)實時 Real-time
6、大數(shù)據(jù)的用戶:內(nèi)部用戶和外部用戶
(1)Data Provider - makes available data internal and/or external to the system
(2)Data Consumer - uses the output of the system
(3)System Orchestrator - governance,requirements,monitoring
(4)Big Data Application Provider - instantiates application
(5)Big Data Framework Provider - provides resources and platforms
7、大數(shù)據(jù)的質(zhì)量
(1)精確性:數(shù)據(jù)是否精確表述一個事實
(2)完整性:是否所有必要的數(shù)據(jù)都已經(jīng)實現(xiàn)
(3)一致性:不同數(shù)據(jù)實體間關系是否一致
(4)時效性:數(shù)據(jù)及其起源是否能夠及時獲取
8、大數(shù)據(jù)的價值
(1)價值密度的稀疏
(2)大量樣本的長尾
4 大數(shù)據(jù)技術體系
1、大數(shù)據(jù)技術體系現(xiàn)狀
2、數(shù)據(jù)質(zhì)量-無法回避的挑戰(zhàn)
(1)傳統(tǒng)數(shù)據(jù)質(zhì)量僅通過ETL方式執(zhí)行
–即抽取、轉(zhuǎn)換、加載,包括解析、模式分析等
–沒有完全覆蓋數(shù)據(jù)質(zhì)量的基本性質(zhì)
(2)挑戰(zhàn)
–分布式環(huán)境中,如何保障全局數(shù)據(jù)的一致性、精確性、完整性
–流處理環(huán)境中,如何保證時效性,例如,時序一致性。
(3)在大數(shù)據(jù)中保證絕對的數(shù)據(jù)質(zhì)量并不現(xiàn)實
–高維、異質(zhì)、模糊、海量、多變
3、存儲的老問題、新挑戰(zhàn):多副本、高并發(fā)、分布式索引、流式技算、磁盤壓縮、集群管理等。
4、某些(核心)轉(zhuǎn)變
(1)Hash大于掃描
(2)單副本轉(zhuǎn)向多副本
(3)單階段轉(zhuǎn)為多階段
(4)壓縮不再解壓
5、大數(shù)據(jù)分析的特點
| 焦點 | 發(fā)生了什么 | 將要發(fā)生什么 |
| 數(shù)據(jù) | 小規(guī)模、干凈數(shù)據(jù),簡單的統(tǒng)計模型 | 大規(guī)模、多樣化、無關聯(lián)數(shù)據(jù)、語義模糊、復雜的預測模型 |
| 支持 | 因果分析:事件及其發(fā)生的原因 | 關聯(lián)分析:利用多個弱關聯(lián)數(shù)據(jù)源發(fā)現(xiàn)有潛在價值的結(jié)果 |
6、大數(shù)據(jù)要解決的主要問題
(1)監(jiān)控動態(tài)流數(shù)據(jù),跟蹤變化趨勢,而非僅僅考慮靜態(tài)數(shù)據(jù)
(2)和數(shù)據(jù)科學家一起工作,而非僅依靠數(shù)據(jù)分析師
(3)將分析工具集成到核心業(yè)務和營運環(huán)節(jié)
7、可視化的挑戰(zhàn)
將大規(guī)模數(shù)據(jù)中蘊含的信息、知識與規(guī)律,利用計算機軟件更好地揭示出來
8、計算范型
(1)數(shù)據(jù)找程序 -> 程序找數(shù)據(jù)
(2)Scale Up -> Scale Out
(3)傳統(tǒng)計算 -> 云計算 Virtual Machine & Multi Tenants
(4)CPU -> HPU (Crowdsourcing)
5 大數(shù)據(jù)生態(tài)系統(tǒng)
1、大數(shù)據(jù)生態(tài)系統(tǒng)
2、Hadoop的生態(tài)圈
3、Berkeley大數(shù)據(jù)處理平臺(BDAS)
BDAS的優(yōu)勢
(1)綜合性的解決方案:在統(tǒng)一的框架內(nèi)開發(fā)大數(shù)據(jù)音樂
(2)高效的解決方案:BDAS的目標是快速處理大量數(shù)據(jù)
| 文件系統(tǒng) | HDFS | Tachyon | 數(shù)據(jù)讀寫速度提高300倍 |
| MapReduce | Hadoop | Spark | 運行速度提高10-100倍 |
| SQL查詢 | Hive | Shark | 查詢速度提高40倍 |
| 處理數(shù)據(jù)流 | Storm | Spark Streaming | 處理速度提高2倍 |
| 圖運算 | Hadoop | GraphX | 運算速度提高10倍 |
6 大數(shù)據(jù)技術挑戰(zhàn)
1、人們普遍認識到了數(shù)據(jù)“大”(Volume),不是數(shù)據(jù)科學面臨的全部挑戰(zhàn),甚至不是主要挑戰(zhàn)。來自不同數(shù)據(jù)源的、不同類型、不同語義(Variety)的數(shù)據(jù)集合的深度綜合與融合問題遠沒有解決,同時,物聯(lián)網(wǎng)、傳感網(wǎng)、穿戴設備等機器數(shù)據(jù)的快速到達(Velocity),對數(shù)據(jù)處理的時效性提出了更大的挑戰(zhàn),除此之外數(shù)據(jù)隱私與可用性(包括數(shù)據(jù)質(zhì)量)問題更是存在挑戰(zhàn)
2、數(shù)據(jù)科學(包括大數(shù)據(jù)技術)的創(chuàng)新與探索剛剛起步,并行進在泥濘當中。
總結(jié)
以上是生活随笔為你收集整理的大数据系统基础 | 绪论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在线免费应用大全
- 下一篇: linux fcitx 安装,fcitx