分布式文件系统之Hdfs是什么?
Hdfs
概念:
Hadoop 實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱(chēng)HDFS。 Hadoop是Apache Lucene創(chuàng)始人Doug Cutting開(kāi)發(fā)的使用廣泛的文本搜索庫(kù)。它起源于Apache Nutch,后者是一個(gè)開(kāi)源的網(wǎng)絡(luò)搜索引擎,本身也是Luene項(xiàng)目的一部分。Aapche Hadoop架構(gòu)是MapReduce算法的一種開(kāi)源應(yīng)用,是Google開(kāi)創(chuàng)其帝國(guó)的重要基石。
架構(gòu)設(shè)計(jì):
采用了主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群是由一個(gè)NameNode和若干個(gè)DataNode組成的。其中NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶(hù)端對(duì)文件的訪問(wèn)操作;集群中的DataNode管理存儲(chǔ)的數(shù)據(jù)。
?
部署方式:
| ~單臺(tái)服務(wù)器上運(yùn)行多個(gè)進(jìn)程(角色). 一般學(xué)習(xí)Hadoop時(shí)常用這種模式.?? ~角色NameNode – 掌控全局SecondaryNameNode – 持久化DataNode – 存儲(chǔ)數(shù)據(jù) ? ? |
?
| ~工作中應(yīng)該使用的模式, 不同角色運(yùn)行在不同的服務(wù)器上. ~角色1/NameNode2/SecondaryNameNode3/DataNode * 3 (兩個(gè)副本) ? |
?
??
| ~雖然完全分布式是在實(shí)際工作中使用的模式, 但它并不是可靠的. 原因很簡(jiǎn)單, 就是集群會(huì)發(fā)生單點(diǎn)故障, 如果namenode節(jié)點(diǎn)故障, 掛掉后, 那么這么集群就不可用, 不能被外部訪問(wèn). 因此, 一般都會(huì)對(duì)集群做HA. 角色1/NameNode(active)2/NameNode(standby)3/DataNode4/Zookeeper(ZK) 5/JournalNode(JNN)6/ZookeeperFailoverController(ZKFC) ? |
?
使用方法:
我所認(rèn)為的使用方法,也就是說(shuō)整個(gè)分布式文件系統(tǒng)的核心——讀寫(xiě)流程。
讀流程:
?
寫(xiě)流程:
?
應(yīng)用場(chǎng)景:
總結(jié)
以上是生活随笔為你收集整理的分布式文件系统之Hdfs是什么?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 分布式文件系统之Tfs是什么?
- 下一篇: 分布式文件系统之Fastdfs是什么?