【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )
一、總體架構設計原則
企業級大數據應用框架需要滿足業務的需求,一是要求能夠滿足基于數據容量大,數據類型多,數據流通快的大數據基本處理需求,能夠支持大數據的采集,存儲,處理和分析,二是要能夠滿足企業級應用在可用性,可靠性,可擴展性,容錯性,安全性和隱私性等方面的基本準則,三是要能夠滿足用原始技術和格式來實現數據分析的基本要求
滿足大數據的V3要求 ?
大數據容量的加載、處理和分析 - 要求大數據應用平臺經過擴展可以支持 GB、TB、PB、EB甚至ZB規模的數據集 ?
各種類型數據的加載、處理和分析 - 支持各種各樣的數據類型,支持處理交易數據、各種非結構化數據、機器數據以及其他新數據結構 ?
大數據的處理速度 - 在很高速度(GB/s)的加載過程中集成來自多個來源的數據
滿足企業級應用的要求
高可擴展性 - 要求平臺符合企業未來業務發展要求以及對新業務的響應,要求大數據架構具備支持調度和執行數百上千節點的負載工作流
高可用性 - 要求平臺能夠具備實時計算環境所具備的高可用性,在單點故障的情況下能夠保證應用的可用性
安全性和保護隱私 - 系統在數據采集、存儲、分析架構上保證數據、網絡、存儲和計算的安全性,具備保護個人和企業隱私的措施
開放性 - 要求平臺能夠支持計算和存儲數以千計的、地理位置可能不同的、可能異構的計算 節點
易用性
二、總體架構參考模型
?基于Apache開源技術的大數據平臺總體架構參考模型如圖所示,大數據的產生、組織和處理主要是通過分布式分揀處理系統來實現的,主流的技術是 Hadoop+ MapReduce?
其中Hadoop的分布式文件處理系統(HDFS)作為大數據存儲的框架,分布式計算框架MapReduce作為大數據處理的框架
大數據基礎?
這一部分提供了大數據框架的基礎,包括序列化、分布式協同等基礎服務, 構成了上層應用的基礎
Avro - 新的數據序列化與傳輸工具,將逐步取代Hadoop原有的IPC機制?
ZooKeeper - 分布式鎖設施 ,它是一個分布式應用程序的集中配置管理器, 用戶分布式應用的高性能協同服務,由 Facebook貢獻,也可以獨立于 Hadoop使用。?
大數據存儲?
HDFS是Hadoop分布式文件系統, HDFS運行于大規模集群之上, 集群使用廉價的普通機器構建, 整個文件系統采用的是元數據集中管理與數據塊分散存儲相結合的模式, 并通過數據的冗余復制來實現高度容錯
大數據處理?
基于 MapReduce寫出的應用程序能夠運行在由上千個普通機器組成的大型集群上, 并以一種可靠容錯的方式并行處理TB級別以上的數 據集
大數據訪問和分析
在 Hadoop + MapReduce之上架構的是基礎平臺服務,在基礎平臺之上是大數據訪問和分析的應用服務
Pig - Pig支持的常用數據分析主要有分組、過濾、合并等,Pig為創建 Apache MapReduce應用程序提供了一款相對簡單的工具
Hive - Hive是由Facebook貢獻的數據倉庫工具, 是MapReduce實現的用來查詢分析 結構化數據的中間件
Sqoop - Sqoop由Cloudera開發,是一種用于在 Hadoop與傳統數據庫間進行數據傳遞的開源工具
Mahout ?- ?Apache Mahout 項目提供分布式機器學習和數據挖掘庫
創作不易 覺得有幫助請點贊關注收藏~~~
總結
以上是生活随笔為你收集整理的【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 多商户机器人,自助注册在线客服系统,im
- 下一篇: antlr java_Antlr4 入门