Hadoop五个进程的作用和联系
1.NameNode:
相當(dāng)于一個領(lǐng)導(dǎo)者,負責(zé)調(diào)度 ,比如你需要存一個1280m的文件如果按照128m分塊 那么namenode就會把這10個塊(這里不考慮副本)分配到集群中的datanode上并記錄對于關(guān)系 。當(dāng)你要下載這個文件的時候namenode就知道在那些節(jié)點上給你取這些數(shù)據(jù)了。它主要維護兩個map 一個是文件到塊的對應(yīng)關(guān)系 一個是塊到節(jié)點的對應(yīng)關(guān)系。
2. secondarynamenode:
它是namenode的一個快照,會根據(jù)configuration中設(shè)置的值來決定多少時間周期性的去cp一namenode,記錄namenode中的metadata及其它數(shù)據(jù)?
3. NodeManager(NM):
1、是YARN中每個節(jié)點上的代理,它管理Hadoop集群中單個計算節(jié)點
2、包括與ResourceManger保持通信,監(jiān)督Container的生命周期管理,
3、監(jiān)控每個Container的資源使用(內(nèi)存、CPU等)情況,追蹤節(jié)點健
4、康狀況,管理日志和不同應(yīng)用程序用到的附屬服務(wù)(auxiliary service)
4.DataNode:
a.DataNode的需要完成的首要任務(wù)是K-V存儲
b.完成和namenode 通信 ,這個通過IPC 心跳連接實現(xiàn),此外還有和客戶端 其它datanode之前的信息交換。
?c.完成和客戶端還有其它節(jié)點的大規(guī)模通信,這個需要直接通過socket 協(xié)議實現(xiàn)。 ?
5.ResourceManager:
?在YARN中,ResourceManager負責(zé)集群中所有資源的統(tǒng)一管理和分配,它接收來自各個節(jié)點(NodeManager)的資源匯報信息,并把這些信息按照一定的策略分配給各個應(yīng)用程序(實際上是ApplicationManager)RM與每個節(jié)點的NodeManagers (NMs)和每個應(yīng)用的ApplicationMasters (AMs)一起工作。
? ? a.NodeManagers 遵循來自ResourceManager的指令來管理單一節(jié)點上的可用資源。
? ? b.ApplicationMasters負責(zé)與ResourceManager協(xié)商資源與NodeManagers合作啟動容器
轉(zhuǎn)載于:https://blog.51cto.com/dbaspace/1874858
總結(jié)
以上是生活随笔為你收集整理的Hadoop五个进程的作用和联系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python学习记录day3
- 下一篇: 好句子不嫌多