Hadoop学习之HDFS架构(一)
生活随笔
收集整理的這篇文章主要介紹了
Hadoop学习之HDFS架构(一)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
HDFS的全稱是Hadoop Distributed File System(Hadoop分布式文件系統),是受到Google的GFS(Google文件系統)啟發而設計開發出來的運行在商用主機上的分布式文件系統。最初HDFS是作為Nutch網絡搜索引擎項目的基礎結構發展的(在Nutch2.x版本以前,搜索到的數據存儲在HDFS上,2.x版本中可以將數據存儲在諸如HBase等NoSQL中),現在是Hadoop的子項目。HDFS和現在使用中的分布式文件系統有很多相似之處,但也有顯著的不同之處。HDFS具有很高的容錯性,被設計運行在低成本的硬件之上,提供訪問應用程序數據的高吞吐量,適用于擁有大數據集的應用程序。HDFS放寬了一些POSIX要求以增強對文件系統數據的流訪問。
在了解了HDFS是如何發展起來之后,現在看看設計HDFS時的設想或者想要實現怎樣的目標呢。
- 硬件故障。硬件故障屬于正?,F象而不是異常,也就是說硬件故障是在物理硬件在持續工作了若干時間后出現的自然問題并非出自人為的或者設計上的問題,也是在所難免的。HDFS實例可能由成百上千臺服務器組成,每臺存儲了部分文件系統數據。實際情況中HDFS擁有巨大數量的組成部分,并且每個部分都有小概率的可能性發生故障,這就意味著在HDFS中有些部分總是不能正常工作的。因此,檢查錯誤并且快速、自動地恢復這些部分就是HDFS的核心架構目標。
- 流數據訪問。運行在HDFS上的應用程序需要以流方式讀取它們的數據集,這些應用程序不是典型地運行在通用文件系統上的通用應用程序。HDFS被設計更多地用于批量處理而不是與用戶交互使用,重點是高吞吐量的數據讀取而不是低延遲的數據讀取。POSIX的一些硬性要求是運行在HDFS上的應用程序不需要的,HDFS放寬了這些要求,在一些關鍵領域POSIX語義用于增加數據吞吐率。
- 大數據集。運行在HDFS上的應用程序擁有大數據集,在HDFS上的典型文件大小從GB
總結
以上是生活随笔為你收集整理的Hadoop学习之HDFS架构(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop学习之以伪分布模式部署Had
- 下一篇: Hadoop学习之HDFS架构(二)