什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)
1. HADOOP背景介紹
1. 1.1 什么是HADOOP
1.????????HADOOP是apache旗下的一套開源軟件平臺(tái)
2.????????HADOOP提供的功能:利用服務(wù)器集群,根據(jù)用戶的自定義業(yè)務(wù)邏輯,對海量數(shù)據(jù)進(jìn)行分布式處理
3.????????HADOOP的核心組件有
A.???????HDFS(分布式文件系統(tǒng))
B.???????YARN(運(yùn)算資源調(diào)度系統(tǒng))
C.???????MAPREDUCE(分布式運(yùn)算編程框架)
4.????????廣義上來說,HADOOP通常是指一個(gè)更廣泛的概念——HADOOP生態(tài)圈
2. 1.2 HADOOP產(chǎn)生背景
1.????????HADOOP最早起源于Nutch。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問題——如何解決數(shù)十億網(wǎng)頁的存儲(chǔ)和索引問題。
2.????????2003年、2004年谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案。
——分布式文件系統(tǒng)(GFS),可用于處理海量網(wǎng)頁的存儲(chǔ)
——分布式計(jì)算框架MAPREDUCE,可用于處理海量網(wǎng)頁的索引計(jì)算問題。
3.????????Nutch的開發(fā)人員完成了相應(yīng)的開源實(shí)現(xiàn)HDFS和MAPREDUCE,并從Nutch中剝離成為獨(dú)立項(xiàng)目HADOOP,到2008年1月,HADOOP成為Apache頂級項(xiàng)目,迎來了它的快速發(fā)展期。
3. 1.3 HADOOP在大數(shù)據(jù)、云計(jì)算中的位置和關(guān)系
1.????????云計(jì)算是分布式計(jì)算、并行計(jì)算、網(wǎng)格計(jì)算、多核計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡等傳統(tǒng)計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)融合發(fā)展的產(chǎn)物。借助IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))、SaaS(軟件即服務(wù))等業(yè)務(wù)模式,把強(qiáng)大的計(jì)算能力提供給終端用戶。
2.????????現(xiàn)階段,云計(jì)算的兩大底層支撐技術(shù)為“虛擬化”和“大數(shù)據(jù)技術(shù)”
3.????????而HADOOP則是云計(jì)算的PaaS層的解決方案之一,并不等同于PaaS,更不等同于云計(jì)算本身。
?
4. 1.4 國內(nèi)外HADOOP應(yīng)用案例介紹
1、HADOOP應(yīng)用于數(shù)據(jù)服務(wù)基礎(chǔ)平臺(tái)建設(shè)
?
2/HADOOP用于用戶畫像
?
3、HADOOP用于網(wǎng)站點(diǎn)擊流日志數(shù)據(jù)挖掘
金融行業(yè):個(gè)人征信分析
證券行業(yè):投資模型分析
交通行業(yè):車輛、路況監(jiān)控分析
電信行業(yè):用戶上網(wǎng)行為分析
......
?
?
總之:hadoop并不會(huì)跟某種具體的行業(yè)或者某個(gè)具體的業(yè)務(wù)掛鉤,它只是一種用來做海量數(shù)據(jù)分析處理的工具
5. 1.5 國內(nèi)HADOOP的就業(yè)情況分析
1、? HADOOP就業(yè)整體情況
A.???????大數(shù)據(jù)產(chǎn)業(yè)已納入國家十三五規(guī)劃
B.???????各大城市都在進(jìn)行智慧城市項(xiàng)目建設(shè),而智慧城市的根基就是大數(shù)據(jù)綜合平臺(tái)
C.???????互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)的種類,增長都呈現(xiàn)爆發(fā)式增長,各行業(yè)對數(shù)據(jù)的價(jià)值日益重視
D.???????相對于傳統(tǒng)JAVAEE技術(shù)領(lǐng)域來說,大數(shù)據(jù)領(lǐng)域的人才相對稀缺
E.????????隨著現(xiàn)代社會(huì)的發(fā)展,數(shù)據(jù)處理和數(shù)據(jù)挖掘的重要性只會(huì)增不會(huì)減,因此,大數(shù)據(jù)技術(shù)是一個(gè)尚在蓬勃發(fā)展且具有長遠(yuǎn)前景的領(lǐng)域
?
?
2、? HADOOP就業(yè)職位要求
大數(shù)據(jù)是個(gè)復(fù)合專業(yè),包括應(yīng)用開發(fā)、軟件平臺(tái)、算法、數(shù)據(jù)挖掘等,因此,大數(shù)據(jù)技術(shù)領(lǐng)域的就業(yè)選擇是多樣的,但就HADOOP而言,通常都需要具備以下技能或知識:
A.???????HADOOP分布式集群的平臺(tái)搭建
B.???????HADOOP分布式文件系統(tǒng)HDFS的原理理解及使用
C.???????HADOOP分布式運(yùn)算框架MAPREDUCE的原理理解及編程
D.???????Hive數(shù)據(jù)倉庫工具的熟練應(yīng)用
E.????????Flume、sqoop、oozie等輔助工具的熟練使用
F.????????Shell/python等腳本語言的開發(fā)能力
6. 1.6 HADOOP生態(tài)圈以及各組成部分的簡介
各組件簡介[M1]?
?
?
重點(diǎn)組件:
HDFS:分布式文件系統(tǒng)
MAPREDUCE:分布式運(yùn)算程序開發(fā)框架
HIVE:基于大數(shù)據(jù)技術(shù)(文件系統(tǒng)+運(yùn)算框架)的SQL數(shù)據(jù)倉庫工具
HBASE:基于HADOOP的分布式海量數(shù)據(jù)庫
ZOOKEEPER:分布式協(xié)調(diào)服務(wù)基礎(chǔ)組件
Mahout:基于mapreduce/spark/flink等分布式運(yùn)算框架的機(jī)器學(xué)習(xí)算法庫
Oozie:工作流調(diào)度框架
Sqoop:數(shù)據(jù)導(dǎo)入導(dǎo)出工具
Flume:日志數(shù)據(jù)采集框架
?
?
?
HADOOP(hdfs、MAPREDUCE、yarn)? 元老級大數(shù)據(jù)處理技術(shù)框架,擅長離線數(shù)據(jù)分析
Zookeeper??分布式協(xié)調(diào)服務(wù)基礎(chǔ)組件
Hbase?分布式海量數(shù)據(jù)庫,離線分析和在線業(yè)務(wù)通吃
Hive sql 數(shù)據(jù)倉庫工具,使用方便,功能豐富,基于MR延遲大
Sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具
Flume數(shù)據(jù)采集框架
總結(jié)
以上是生活随笔為你收集整理的什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 摩托车油管线和油门线的区别?
- 下一篇: 捷途x90变速箱油加几升?