大讲台大数据特训学习笔记
什么是大數(shù)據(jù)技術(shù)?
對(duì)于一個(gè)從事大數(shù)據(jù)行業(yè)人來(lái)說(shuō),一切數(shù)據(jù)都是有意義的。因?yàn)橥ㄟ^(guò)數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)等,我們可以發(fā)現(xiàn)很多有用的或有意思的規(guī)律和結(jié)論。
比如,北京公交一卡通每天產(chǎn)生4千萬(wàn)條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規(guī)律,來(lái)有效改善城市交通。
但這4千萬(wàn)條刷卡數(shù)據(jù) ,不是想用就能用的,需要通過(guò)“存儲(chǔ)”“計(jì)算”“智能”來(lái)對(duì)數(shù)據(jù)進(jìn)行加工和支撐,從而實(shí)現(xiàn)數(shù)據(jù)的增值。
而在這其中,最關(guān)鍵的問(wèn)題不在于數(shù)據(jù)技術(shù)本身,而在于是否實(shí)現(xiàn)兩個(gè)標(biāo)準(zhǔn):第一,這4千萬(wàn)條記錄,是否足夠多,足夠有價(jià)值;第二,是否找到適合的數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用。
下面就來(lái)簡(jiǎn)單說(shuō)說(shuō)上述提到的一些和“大數(shù)據(jù)“”形影不離的“小伙伴們”——
云計(jì)算
由于大數(shù)據(jù)的采集、存儲(chǔ)和計(jì)算的量都非常大,所以大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的數(shù)據(jù)。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
可以說(shuō),大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫(kù)”,云計(jì)算相當(dāng)于計(jì)算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化后再進(jìn)行分配使用。
整體來(lái)看,未來(lái)的趨勢(shì)是,云計(jì)算作為計(jì)算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢(shì)是,實(shí)時(shí)交互式的查詢效率和分析能力, “動(dòng)一下鼠標(biāo)就可以在秒級(jí)操作PB級(jí)別的數(shù)據(jù)”。
Hadoop/HDFS /Mapreduce/Spark
除了云計(jì)算,分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來(lái)了新的曙光。
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的開(kāi)源分部式基礎(chǔ)架構(gòu)。它是一款用Java編寫(xiě)的開(kāi)源軟件框架,用于分布式存儲(chǔ),并對(duì)非常大的數(shù)據(jù)集進(jìn)行分布式處理,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,現(xiàn)在Hadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)源軟件。
而HDFS為海量的數(shù)據(jù)提供了存儲(chǔ);Mapreduce則為海量的數(shù)據(jù)提供了并行計(jì)算,從而大大提高計(jì)算效率。它是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,能允許開(kāi)發(fā)者在不具備開(kāi)發(fā)經(jīng)驗(yàn)的前提下也能夠開(kāi)發(fā)出分布式的并行程序,并讓其運(yùn)行在數(shù)百臺(tái)機(jī)器上,在短時(shí)間完成海量數(shù)據(jù)的計(jì)算。
在使用了一段時(shí)間的 MapReduce 以后,程序員發(fā)現(xiàn) MapReduce 的程序?qū)懫饋?lái)太麻煩,希望能夠封裝出一種更簡(jiǎn)單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同時(shí)Spark/storm/impala等各種各樣的技術(shù)也相繼進(jìn)入數(shù)據(jù)科學(xué)的視野。比如Spark是Apache Software Foundation中最活躍的項(xiàng)目,是一個(gè)開(kāi)源集群計(jì)算框架,也是一個(gè)非常看重速度的大數(shù)據(jù)處理平臺(tái)。
打個(gè)比方,如果我們把上面提到的4千萬(wàn)條記錄比喻成“米”,那么,我們可以用“HDFS”儲(chǔ)存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學(xué)習(xí)框架Tensorflow),就相當(dāng)于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。
鏈接:https://pan.baidu.com/s/1_4PIUb-Yl68aTW9Bw95iJA
提取碼:tnav
總結(jié)
以上是生活随笔為你收集整理的大讲台大数据特训学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 黑马Go语言与区块链学习笔记
- 下一篇: 小码哥30小时快速精通C++和外挂实战特