當前位置：首頁 > 运维知识 > windows >内容正文

windows

HDFS文件系统的基础理论,HDFS工作者和管理者的分配,HDFS文件存储容量的理解

發布時間：2024/1/8 windows 68 豆豆

生活随笔收集整理的這篇文章主要介紹了 HDFS文件系统的基础理论,HDFS工作者和管理者的分配,HDFS文件存储容量的理解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.HDFS的文件系統介紹

HDFS是Hadoop Distribute File System 的簡稱，意為：Hadoop 分布式文件系統。是 Hadoop 核心組件之一，作為最底層的分布式存儲服務而存在。

HDFS使用Master和Slave結構對集群進行管理。一般一個 HDFS 集群只有一個Namenode 和一定數目的Datanode 組成。 Namenode 是 HDFS 集群主節點，Datanode 是 HDFS 集群從節點兩種角色各司其職，共同協調完成分布式的文件存儲服務。

NameNode(Master)管理者 -只負責管理,管理集群內各個節點

SecondaryNameNode 輔助管理-只負責輔助NameNode管理工作(SecondaryNameNode 不能代替 NameNode 比如:市長秘書不能代替市長執行工作)

DataNode(slave) 工作者,是負責工作,周期像NameNode匯報,進行讀寫數據

HDFS角色作用簡介

HDFS集群包括，NameNode和DataNode以及Secondary Namenode。NameNode負責管理整個文件系統的元數據，以及每一個路徑（文件）所對應的數據塊信息。DataNode 負責管理用戶的文件數據塊，每一個數據塊都可以在多datanode上存儲多個副本。Secondary NameNode用來監控HDFS狀態的輔助后臺程序，每隔一段時間獲取HDFS元數據的快照。最主要作用是輔助namenode管理元數據信息

HDFS分塊存儲

hdfs將所有的文件全部抽象成為block塊來進行存儲,不管是文件大小,全部一視同仁都是以block塊的統一大小和形式進行存儲,方便我們的分布式文件系統對文件進行管理

所有的文件都是以block塊的方式存放在HDFS文件系統當中，在Hadoop1當中，文件的block塊默認大小是64M，Hadoop2當中，文件的block塊大小默認是128M，block塊的大小可以通過hdfs-site.xml當中的配置文件進行指定

<property><name>dfs.block.size</name><value>塊大小以字節為單位</value>//只寫數值就可以 </property>

HDFS-分塊存儲圖片理解

一個文件100M，上傳到HDFS占用幾個快？
一個塊128M，剩余的28M怎么辦？
事實上，128只是個數字，數據超過128M，便進行切分，如果沒有超過128M，就不用切分，有多少算多少，不足128M的也是一個快。這個塊的大小就是100M，沒有剩余28M這個概念
抽象成數據塊的好處
1.一個文件有可能大于集群中任意一個磁盤
20T/128 = xxx塊，這些block塊屬于一個文件
2.使用塊抽象而不是文件,可以簡化存儲子系統。
3.塊非常適合用于數據備份進而提供數據容錯能力和可用性

HDFS副本機制

HDFS視硬件錯誤為常態，硬件服務器隨時有可能發生故障。
為了容錯，文件的所有 block 都會有副本。每個文件的 block 大小和副本系數都是可配置的。應用程序可以指定某個文件的副本數目。副本系數可以在文件創建的時候指定，也可以在之后改變。
數據副本默認保存三個副本，我們可以更改副本數以提高數據的安全性
在hdfs-site.xml當中修改以下配置屬性，即可更改文件的副本數

<property><name>dfs.replication</name><value>3</value> </property>

第一份數據來源于用戶的客戶端
第二份數據存放在與第一份副本在同一個機架，不同的節點，按照一定的機制（cpu 內存 io 使用率和節點磁盤剩余容量）選取一個節點進行存放
第三份副本存放在，與第一第二副本不在同一機架，且邏輯距離最近的機架上，按照一定的機制（cpu 內存 io 使用率和節點磁盤剩余容量），選擇一個節點進行存放

名字空間
HDFS 支持傳統的層次型文件組織結構。用戶或者應用程序可以創建目錄，然后將文件保存在這些目錄里。文件系統名字空間的層次結構和大多數現有的文件系統類似：用戶可以創建、刪除、移動或重命名文件。
Namenode 負責維護文件系統的名字空間，任何對文件系統名字空間或屬性的修改都將被Namenode 記錄下來。
HDFS 會給客戶端提供一個統一的目錄樹，客戶端通過路徑來訪問文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

例如:這張圖片我想找到ES系列轎車中的發動機型號在圖片中顯示為第41頁
然后直接打開第41頁就可看到你想要看得東西

Namenode 功能

我們把目錄結構及文件分塊位置信息叫做元數據
Namenode 負責維護整個hdfs文件系統的目錄樹結構，以及每一個文件所對應的 block 塊信息（block的id，及所在的datanode 服務器）

2. Namenode節點負責確定指定的文件塊到具體的Datanode結點的映射關系。在客戶端與數據節點之間共享數據。

3. 管理Datanode結點的狀態報告，包括Datanode結點的健康狀態報告和其所在結點上數據塊狀態報告，以便能夠及時處理失效的數據結點。
DataNnode每三秒向NameNode進行報告一次

總結

以上是生活随笔為你收集整理的HDFS文件系统的基础理论,HDFS工作者和管理者的分配,HDFS文件存储容量的理解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： AUTOSAR架构中的配置文件
下一篇：阶梯博弈（Staircase Nim）