當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop的架构

發(fā)布時(shí)間：2024/4/13 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop的架构小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Hadoop

8.1 Hadoop的介紹

Hadoop最早起源于Nutch。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎，包括網(wǎng)頁抓取、索引、查詢等功能，但隨著抓取網(wǎng)頁數(shù)量的增加，遇到了嚴(yán)重的可擴(kuò)展性問題——如何解決數(shù)十億網(wǎng)頁的存儲和索引問題。

2003年、2004年谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案。

——分布式文件系統(tǒng)（GFS），可用于處理海量網(wǎng)頁的存儲

——分布式計(jì)算框架MAPREDUCE，可用于處理海量網(wǎng)頁的索引計(jì)算問題。

Nutch的開發(fā)人員完成了相應(yīng)的開源實(shí)現(xiàn)HDFS和MAPREDUCE，并從Nutch中剝離成為獨(dú)立項(xiàng)目HADOOP，到2008年1月，HADOOP成為Apache頂級項(xiàng)目.

狹義上來說，hadoop就是單獨(dú)指代hadoop這個(gè)軟件，

HDFS ：分布式文件系統(tǒng)

MapReduce : 分布式計(jì)算系統(tǒng)

廣義上來說，hadoop指代大數(shù)據(jù)的一個(gè)生態(tài)圈，包括很多其他的軟件

8.2、hadoop的歷史版本介紹

1.x版本系列：hadoop版本當(dāng)中的第二代開源版本，主要修復(fù)0.x版本的一些bug等

2.x版本系列：架構(gòu)產(chǎn)生重大變化，引入了yarn平臺等許多新特性

3.x版本系列: 加入多namenoode新特性

8.3、hadoop三大公司發(fā)型版本介紹

免費(fèi)開源版本apache:

http://hadoop.apache.org/

優(yōu)點(diǎn)：擁有全世界的開源貢獻(xiàn)者，代碼更新迭代版本比較快，

缺點(diǎn)：版本的升級，版本的維護(hù)，版本的兼容性，版本的補(bǔ)丁都可能考慮不太周到，\

apache所有軟件的下載地址（包括各種歷史版本）：

http://archive.apache.org/dist/

免費(fèi)開源版本hortonWorks：

https://hortonworks.com/

hortonworks主要是雅虎主導(dǎo)Hadoop開發(fā)的副總裁，帶領(lǐng)二十幾個(gè)核心成員成立Hortonworks，核心產(chǎn)品軟件HDP（ambari），HDF免費(fèi)開源，并且提供一整套的web管理界面，供我們可以通過web界面管理我們的集群狀態(tài)，web管理界面軟件HDF網(wǎng)址（http://ambari.apache.org/）

軟件收費(fèi)版本ClouderaManager:

https://www.cloudera.com/

cloudera主要是美國一家大數(shù)據(jù)公司在apache開源hadoop的版本上，通過自己公司內(nèi)部的各種補(bǔ)丁，實(shí)現(xiàn)版本之間的穩(wěn)定運(yùn)行，大數(shù)據(jù)生態(tài)圈的各個(gè)版本的軟件都提供了對應(yīng)的版本，解決了版本的升級困難，版本兼容性等各種問題

8.4、hadoop的架構(gòu)模型（1.x，2.x的各種架構(gòu)模型介紹）

8.4.1、1.x的版本架構(gòu)模型介紹

文件系統(tǒng)核心模塊：

NameNode：集群當(dāng)中的主節(jié)點(diǎn)，管理元數(shù)據(jù)(文件的大小，文件的位置，文件的權(quán)限)，主要用于管理集群當(dāng)中的各種數(shù)據(jù)

secondaryNameNode：主要能用于hadoop當(dāng)中元數(shù)據(jù)信息的輔助管理

DataNode：集群當(dāng)中的從節(jié)點(diǎn)，主要用于存儲集群當(dāng)中的各種數(shù)據(jù)

數(shù)據(jù)計(jì)算核心模塊：

JobTracker：接收用戶的計(jì)算請求任務(wù)，并分配任務(wù)給從節(jié)點(diǎn)

TaskTracker：負(fù)責(zé)執(zhí)行主節(jié)點(diǎn)JobTracker分配的任務(wù)

8.4.2、2.x的版本架構(gòu)模型介紹

第一種：NameNode與ResourceManager單節(jié)點(diǎn)架構(gòu)模型

文件系統(tǒng)核心模塊：

NameNode：集群當(dāng)中的主節(jié)點(diǎn)，主要用于管理集群當(dāng)中的各種數(shù)據(jù)

secondaryNameNode：主要能用于hadoop當(dāng)中元數(shù)據(jù)信息的輔助管理

DataNode：集群當(dāng)中的從節(jié)點(diǎn)，主要用于存儲集群當(dāng)中的各種數(shù)據(jù)

數(shù)據(jù)計(jì)算核心模塊：

ResourceManager：接收用戶的計(jì)算請求任務(wù)，并負(fù)責(zé)集群的資源分配

NodeManager：負(fù)責(zé)執(zhí)行主節(jié)點(diǎn)APPmaster分配的任務(wù)

第二種：NameNode單節(jié)點(diǎn)與ResourceManager高可用架構(gòu)模型

文件系統(tǒng)核心模塊：

NameNode：集群當(dāng)中的主節(jié)點(diǎn)，主要用于管理集群當(dāng)中的各種數(shù)據(jù)

secondaryNameNode：主要能用于hadoop當(dāng)中元數(shù)據(jù)信息的輔助管理

DataNode：集群當(dāng)中的從節(jié)點(diǎn)，主要用于存儲集群當(dāng)中的各種數(shù)據(jù)

數(shù)據(jù)計(jì)算核心模塊：

ResourceManager：接收用戶的計(jì)算請求任務(wù)，并負(fù)責(zé)集群的資源分配，以及計(jì)算任務(wù)的劃分，通過zookeeper實(shí)現(xiàn)ResourceManager的高可用

NodeManager：負(fù)責(zé)執(zhí)行主節(jié)點(diǎn)ResourceManager分配的任務(wù)

第三種：NameNode高可用與ResourceManager單節(jié)點(diǎn)架構(gòu)模型

文件系統(tǒng)核心模塊：

NameNode：集群當(dāng)中的主節(jié)點(diǎn)，主要用于管理集群當(dāng)中的各種數(shù)據(jù)，其中nameNode可以有兩個(gè)，形成高可用狀態(tài)

DataNode：集群當(dāng)中的從節(jié)點(diǎn)，主要用于存儲集群當(dāng)中的各種數(shù)據(jù)

JournalNode：文件系統(tǒng)元數(shù)據(jù)信息管理

數(shù)據(jù)計(jì)算核心模塊：

ResourceManager：接收用戶的計(jì)算請求任務(wù)，并負(fù)責(zé)集群的資源分配，以及計(jì)算任務(wù)的劃分

NodeManager：負(fù)責(zé)執(zhí)行主節(jié)點(diǎn)ResourceManager分配的任務(wù)

第四種：NameNode與ResourceManager高可用架構(gòu)模型

文件系統(tǒng)核心模塊：

NameNode：集群當(dāng)中的主節(jié)點(diǎn)，主要用于管理集群當(dāng)中的各種數(shù)據(jù)，一般都是使用兩個(gè)，實(shí)現(xiàn)HA高可用

JournalNode：元數(shù)據(jù)信息管理進(jìn)程，一般都是奇數(shù)個(gè)

DataNode：從節(jié)點(diǎn)，用于數(shù)據(jù)的存儲

數(shù)據(jù)計(jì)算核心模塊：

ResourceManager：Yarn平臺的主節(jié)點(diǎn)，主要用于接收各種任務(wù)，通過兩個(gè)，構(gòu)建成高可用

NodeManager：Yarn平臺的從節(jié)點(diǎn)，主要用于處理ResourceManager分配的任務(wù)

總結(jié)

以上是生活随笔為你收集整理的hadoop的架构的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Zookeeper的节点操作
下一篇： notepad++ 远程连接阿里云服务器