hadoop2.x学习01
hadoop2.x學習01
最新的發行版本已經是2.7了,我圍繞2.5展開學習。
hadoop2.x是在hadoop0.23之后發行的正式版2.2。
本身是來自于lucene和nutch,在ggl的論文MR、GFS、BigTable組合下生成了hadoop,對海量數據進行分析處理。
相比于hadoop1.x,2.x版本新增加了一個資源調度模塊yarn,正是2.x版本的最強之處。2.x版本分為4個模塊,hadoop common公共模塊即1.x的hadoop core核心模塊、hadoop hdfs存儲模塊、hadoop yarn調度模塊、hadoop MR數據處理模塊。
hadoop hdfs是一個高性能分布式存儲系統。大數據量文件按塊劃分存儲到機柜機架集群中。分布式系統具有高度的內聚性和透明性。hdfs系統中分為name node和datanodes兩種節點。namenode存儲文件的元數據如文件名,文件目錄結構,文件屬性(生成時間,文件權限),以及文件的塊列表和塊所在datanode。datanode是集群中的任一計算機,其功能為在本地文件系統存儲文件的塊數據以及塊數據的校驗和。通常集群中存在secondary namenode用來監控HDSF狀態的輔助后臺程序,每隔一段時間獲取HDFS元數據的快照,作為災難備份,在主namenode發生問題時繼續管理datanode。
hadoop yarn是一個資源調度管理系統。yarn分為resource manager和node manager兩種節點。客戶端操作請求進入resourcemanager,在RM中生成applicationmaster數據appms。
appms中包含數據的元信息,以及為請求所分配的資源使用方案。
RM將APPMS的信息分配到Nodemanager中,NM處理RM發來的信息,以及APPMS中的信息,分配任務,生成container來執行任務。
總結
以上是生活随笔為你收集整理的hadoop2.x学习01的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1968:Misspelling
- 下一篇: 两军对垒问题及个人的思考