大数据的存储
大數(shù)據(jù)的存儲
1.存儲方式
1.1 塊存儲
????????塊存儲就好比硬盤一樣,直接掛載到主機,一般用于主機的直接存儲空間和數(shù)據(jù)庫應(yīng)用的存儲。它分兩種形式:
????????DAS:一臺服務(wù)器一個存儲,多機無法直接共享,需要借助操作系統(tǒng)的功能,如共享文件夾。
????????SAN:金融電信級別,高成本的存儲方式,涉及到光纖和各類高端設(shè)備,可靠性和性能都很高,除了貴和運維成本高,基本都是好處。
????????云存儲的塊存儲:具備SAN的優(yōu)勢,而且成本低,不用自己運維,且提供彈性擴容,隨意搭配不同等級的存儲等功能,存儲介質(zhì)可選普通硬盤和SSD。
1.2 文件存儲
????????文件存儲與較底層的塊存儲不同,上升到了應(yīng)用層,一般指的就是NAS ,一套網(wǎng)絡(luò)儲存設(shè)備,通過TCP/IP進行訪問,協(xié)議為NFSv3/v4。由于通過網(wǎng)絡(luò),且采用上層協(xié)議,因此開銷大,延時肯定比塊存儲高。一般用于多個云服務(wù)器共享數(shù)據(jù),如服務(wù)器日志集中管理、辦公文件共享。
1.3 對象存儲
????????對象存儲具備塊存儲的高速以及文件存儲的共享等特性,較為智能,有自己的CPU、內(nèi)存、網(wǎng)絡(luò)和磁盤,比塊存儲和文件存儲更上層,云服務(wù)商一般提供用戶文件上傳下載讀取的Rest API,方便應(yīng)用集成此類服務(wù)。
1.4 總結(jié)
????????塊存儲:是和主機打交道的,如插一塊硬盤。
????????文件存儲:NAS,網(wǎng)絡(luò)存儲,用于多主機共享數(shù)據(jù)。
????????對象存儲:跟自己開發(fā)的應(yīng)用程序打交道,如網(wǎng)盤。
????????它們的層級是越來越高。
2 大數(shù)據(jù)的存儲方式
2.1 分布式系統(tǒng)
????????分布式系統(tǒng)包含多個自主的處理單元,通過計算機網(wǎng)絡(luò)互連來協(xié)作完成分配的任務(wù),其分而治之的策略能夠更好的處理大規(guī)模數(shù)據(jù)分析問題。主要包含以下兩類:
????????分布式文件系統(tǒng):存儲管理需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲能力的支持。分布式文件系統(tǒng) HDFS 是一個高度容錯性系統(tǒng),被設(shè)計成適用于批量處理,能夠提供高吞吐量的的數(shù)據(jù)訪問。
????????分布式鍵值系統(tǒng):分布式鍵值系統(tǒng)用于存儲關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù)。典型的分布式鍵值系統(tǒng)有Amazon Dynamo,以及獲得廣泛應(yīng)用和關(guān)注的對象存儲技術(shù)(Object Storage)也可以視為鍵值系統(tǒng),其存儲和管理的是對象而不是數(shù)據(jù)塊。
2.2 NoSQL數(shù)據(jù)庫
????????關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足Web 2.0的需求。主要表現(xiàn)為:無法滿足海量數(shù)據(jù)的管理需求、無法滿足數(shù)據(jù)高并發(fā)的需求、高可擴展性和高可用性的功能太低。
????????NoSQL數(shù)據(jù)庫的優(yōu)勢:可以支持超大規(guī)模數(shù)據(jù)存儲,靈活的數(shù)據(jù)模型可以很好地支持Web 2.0應(yīng)用,具有強大的橫向擴展能力等,典型的NoSQL數(shù)據(jù)庫包含以下幾種:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫。
2.3 云數(shù)據(jù)庫
????????云數(shù)據(jù)庫是基于云計算技術(shù)發(fā)展的一種共享基礎(chǔ)架構(gòu)的方法,是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫。云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù),而只是以服務(wù)的方式提供數(shù)據(jù)庫功能。云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫所使用的關(guān)系模型(微軟的SQLAzure云數(shù)據(jù)庫都采用了關(guān)系模型)。同一個公司也可能提供采用不同數(shù)據(jù)模型的多種云數(shù)據(jù)庫服務(wù)。
3 大數(shù)據(jù)存儲技術(shù)路線
3.1 MPP架構(gòu)的新型數(shù)據(jù)庫集群
????????采用MPP(Massive Parallel Processing)架構(gòu)的新型數(shù)據(jù)庫集群,重點面向行業(yè)大數(shù)據(jù),采用Shared Nothing架構(gòu),通過列存儲、粗粒度索引等多項大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計算模式,完成對分析類應(yīng)用的支撐,運行環(huán)境多為低成本PC Server,具有高性能和高擴展性的特點,在企業(yè)分析類應(yīng)用領(lǐng)域獲得極其廣泛的應(yīng)用。
????????這類MPP產(chǎn)品可以有效支撐PB級別的結(jié)構(gòu)化數(shù)據(jù)分析,這是傳統(tǒng)數(shù)據(jù)庫技術(shù)無法勝任的。對于企業(yè)新一代的數(shù)據(jù)倉庫和結(jié)構(gòu)化數(shù)據(jù)分析,目前最佳選擇是MPP數(shù)據(jù)庫。
3.2 基于Hadoop的技術(shù)擴展
????????基于Hadoop的技術(shù)擴展和封裝,圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對傳統(tǒng)關(guān)系型數(shù)據(jù)庫較難處理的數(shù)據(jù)和場景,例如針對非結(jié)構(gòu)化數(shù)據(jù)的存儲和計算等,充分利用Hadoop開源的優(yōu)勢,伴隨相關(guān)技術(shù)的不斷進步,其應(yīng)用場景也將逐步擴大,目前最為典型的應(yīng)用場景就是通過擴展和封裝Hadoop來實現(xiàn)對互聯(lián)網(wǎng)大數(shù)據(jù)存儲、分析的支撐。對于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)處理、復(fù)雜的ETL(Extract-Transform-Load)流程、復(fù)雜的數(shù)據(jù)挖掘和計算模型,Hadoop平臺更擅長。
3.3 大數(shù)據(jù)一體機
????????大數(shù)據(jù)一體機是一種專為大數(shù)據(jù)的分析處理而設(shè)計的軟、硬件結(jié)合的產(chǎn)品,由一組集成的服務(wù)器、存儲設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及為數(shù)據(jù)查詢、處理、分析用途而特別預(yù)先安裝及優(yōu)化的軟件組成,高性能大數(shù)據(jù)一體機具有良好的穩(wěn)定性和縱向擴展性。
4 分布式文件系統(tǒng)
????下面列舉了常用的分布式文件系統(tǒng):
????????GFS也就是Google File System,Google公司為了存儲海量搜索數(shù)據(jù)而設(shè)計的專用文件系統(tǒng)。盡管Google公布了該系統(tǒng)的一些技術(shù)細節(jié),但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。
HDFS(Hadoop Distributed File System)源于Google在2003年10月份發(fā)表的GFS(Google File System) 論文,它其實就是 GFS 的一個克隆版本。
????????開源 http://hadoop.apache.org/
????????Ceph是加州大學(xué)圣克魯茲分校的Sage weil攻讀博士時開發(fā)的分布式文件系統(tǒng)。由于ceph使用btrfs文件系統(tǒng),而btrfs文件系統(tǒng)需要Linux 2.6.34以上的內(nèi)核才支持。
????????開源 https://ceph.com/
????????Lustre是源自Linux和Cluster的混成詞。最早在1999年,由皮特·布拉姆創(chuàng)建的集群文件系統(tǒng)公司開始研發(fā),于2003年發(fā)布Lustre 1.0。采用GNU GPLv2開源碼授權(quán)。
????????開源 http://lustre.org/
????????適合存儲小文件、圖片的分布文件系統(tǒng)有:
????????MogileFS(https://github.com/mogilefs/)
????????mooseFS(https://moosefs.com/)
????????FastFS(https://github.com/happyfish100/fastdfs)
????????TFS(http://tfs.taobao.org/)
????????GridFS(https://www.mongodb.com)
總結(jié)
- 上一篇: 第一季5:Hi3518EV200的环境搭
- 下一篇: linux kill命令信号,Linux