二、分布式文件系统HDFS及其简单使用
在現(xiàn)代的企業(yè)環(huán)境中,單機容量往往無法存儲大量數(shù)據(jù),需要跨機器存儲。統(tǒng)一管理分布在集群上的文件系統(tǒng)稱為分布式文件系統(tǒng)。
HDFS
HDFS(Hadoop Distributed File System)是 Apache Hadoop 項目的一個子項目. Hadoop 非常適于存儲大型數(shù)據(jù) (比如 TB 和 PB), 其就是使用 HDFS 作為存儲系統(tǒng). HDFS 使用多臺計算機存儲文件, 并且提供統(tǒng)一的訪問接口。
HDFS是根據(jù)谷歌的論文:《The Google File System》進行設(shè)計的
HDFS的四個基本組件:HDFS Client、NameNode、DataNode和Secondary NameNode。
Client
Client是客戶端。HDFS Client文件切分。文件上傳 HDFS 的時候,Client 將文件切分成 一個一個的Block,然后進行存儲。Client 提供一些命令來管理 和訪問HDFS,比如啟動或者關(guān)閉HDFS。
NameNode
NameNode就是 master,它是一個主管、管理者。管理 HDFS 元數(shù)據(jù)(文件路徑,文件的大小,文件的名字,文件權(quán)限,文件的block切片信息)。
NameNode管理 Block 副本策略:默認(rèn) 3 個副本,處理客戶端讀寫請求。
總結(jié)
以上是生活随笔為你收集整理的二、分布式文件系统HDFS及其简单使用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python+Flask+Echart+
- 下一篇: 辽宁舰30节相当于地面多少公里?