大数据平台容量评估_大数据平台
系統(tǒng)概述
大數據應用支撐平臺提供數據支撐服務,對外發(fā)布數據服務進行數據價值變現(xiàn)。包含數據采集、數據治理、數據交換、數據存儲、數據計算相關組件的搭建、驗證,并建立大數據倉庫。
b)功能要求
1.數據采集,大數據平臺數據源層有各類型數據源,數據類型分為關系型業(yè)務庫、NoSQL庫、文本文件、視頻、服務接口,數據格式分為結構化數據、非結構化數據(文件、圖片、視頻等),為了將多源異構的數據進行采集,需要將源數據原封不動的從源庫全量抽取出來,或者只抽取上次抽取以來源庫中要新增或修改的數據,因此數據采集工具需要滿足對多源異構數據的全量抽取和增量抽取。
2.數據治理,由于從數據采集工具采集過來的數據不具備統(tǒng)一的數據標準及數據格式,數據治理工具需要對到達的數據進行格式檢查、標準化、增量對比、數據篩選、拆分后,生成符合標準的、統(tǒng)一格式的數據,使之與大數據平臺要求的數據標準、邏輯關系與質量符合。
3.數據交換,為了滿足子系統(tǒng)與總系統(tǒng)之間的數據交換及同步的需求,各系統(tǒng)之間的數據傳輸過程需要符合數據規(guī)范標準,交換的雙方通過發(fā)送和接收任務進行數據交換,整個過程需要保證數據安全保密及可靠性,并且數據查詢結果始終一致。
4.數據存儲,為了滿足數據采集、數據治理、數據交換各個過程中到達存儲的數據,數據存儲體系需要滿足分布式文件存儲、分布式列式存儲、NoSql數據庫存儲、圖數據庫存儲、關系型結果庫存儲;為了滿足數據計算和數據分析過程對數據的需求,數據存儲體系需要支持全量的從數據存儲體系中抽取出來加載到并行數據處理器,增量的結構化數據實時從數據存儲體系中抽取出來后加載到處理器中進行分析計算。
5.數據計算,數據計算模塊需要為數據分析應用場景提供數據計算能力,需要整合分布式計算框架MapReduce、全文檢索存儲引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX),通過數據匹配、數據搜索、數據重構,提供對海量數據的并行加載與處理功能,并對數據進行實時計算和離線計算,支撐上層數據分析需求。
6.大數據倉庫,數據倉庫支持從各種不同的數據源中采集數據,包括關系數據庫、NoSql庫、文本文件、視頻文件、數據接口等。采集工具綜合運用kettle、dataX、sqoop、kafka、flume等,實現(xiàn)全量采集和增量采集方式。按數據處理的不同階段,將數據倉庫進行分層:
STAGE層(接口層):提供業(yè)務系統(tǒng)數據文件的臨時存儲,是生產系統(tǒng)數據源的直接拷貝,由ETL過程對數據源進行直接抽取,在格式和數據定義上不作任何改變。從各業(yè)務系統(tǒng)中抽取、抓取的數據,進入這一層。
ODS/DWD層(細節(jié)數據層):簡稱DWD層,是對STAGE層數據進行沉淀,減少了抽取的復雜性,同時ODS/DWD的信息模型組織主要遵循企業(yè)業(yè)務事務處理的形式,將企業(yè)各專業(yè)數據進行集中,將數據按分析的主體的形式存放,跟STAGE層的粒度一致,屬于分析的公共資源。
MID層(輕度匯總層):是面向分析型應用,對DWD層的生產數據進行輕度綜合和匯總統(tǒng)計。
DM層(數據集市層):將數據按分析的專題組織成多維庫表的形式存放,屬于分析目標范疇的數據組織與匯總,屬于分析的專有資源,其信息主要來源于DWD 和MID層匯總,時間維度可以是日、月、季、年。
MDW層(元數據):對數據倉庫中的數據、數據源、采集方式進行描述。
各類數據從業(yè)務系統(tǒng)通過ETL工具抽取至接口層,然后經過清洗轉換,進入細節(jié)數據層,經過匯總統(tǒng)計,進入輕度匯總層,再經過主題劃分,按事實表、維度表進行匯總組織,形成數據集市層。
數據倉庫的服務主要包括元數據管理、數據處理調度、數據稽核、數據發(fā)布。元數據管理對數據倉庫中的數據、數據源、采集方式進行管理,為數據處理和發(fā)布提供基礎元數據。數據處理調度實現(xiàn)各層數據處理過程的調度管理。數據稽核實現(xiàn)數據完整性、一致性、準確性的檢查。數據發(fā)布實現(xiàn)數據的對外共享發(fā)布。
基于數據倉庫,搭建數據分析工具,實現(xiàn)數據明細查詢、全文檢索,數據交互式探索、數據統(tǒng)計和數據挖掘等。數據分析的結果可以進一步接入到應用中,進行可視化展現(xiàn)。
總結
以上是生活随笔為你收集整理的大数据平台容量评估_大数据平台的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 量子电动力学的发展:费曼的诺贝尔奖
- 下一篇: 亚马逊将关闭英国三家仓库,1200 人全