HDFS的概述
Hadoop 核心介紹
1. HDFS
HDFS(Hadoop Distributed File System) 是一個 Apache Software Foundation 項目, 是 Apache Hadoop 項目的一個子項目. Hadoop 非常適于存儲大型數據 (比如 TB 和 PB), 其就是使用 HDFS 作為存儲系統. HDFS 使用多臺計算機存儲文件, 并且提供統一的訪問接口, 像是訪問一個普通文件系統一樣使用分布式文件系統. HDFS 對數據文件的訪問通過流的方式進行處理, 這意味著通過命令和 MapReduce 程序的方式可以直接使用 HDFS. HDFS 是容錯的, 且提供對大數據集的高吞吐量訪問.
HDFS 的一個非常重要的特點就是一次寫入、多次讀取, 該模型降低了對并發控制的要求, 簡化了數據聚合性, 支持高吞吐量訪問. 而吞吐量是大數據系統的一個非常重要的指標, 吞吐量高意味著能處理的數據量就大.
1.1. 設計目標
- 通過跨多個廉價計算機集群分布數據和處理來節約成本
- 通過自動維護多個數據副本和在故障發生時來實現可靠性
- 它們為存儲和處理超大規模數據提供所需的擴展能力。
1.2. HDFS 的歷史
?
?
總結
- 上一篇: hadoop的安装-配置文件修改
- 下一篇: HDFS的namenode和datano