MPP架构是什么?看这一篇就行了。。
文章目錄
MPP是什么SMP- Symmetric Multi-Processor 對稱多處理器結(jié)構(gòu)NUMA -Non-Uniform Memory Access 非一致存儲訪問結(jié)構(gòu)MPP -Massive-Parallel Processing 海量并行處理架構(gòu)
MPP DB- Share Disk- Share Nothing
典型MPP DBGreenplumTeradataImpalaPrestoES
MPP架構(gòu)的應(yīng)用場景搜索架構(gòu)查詢
學(xué)習(xí)筆記:大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)
MPP是什么
系統(tǒng)架構(gòu)層面的服務(wù)器分類,如下三類:
SMP- Symmetric Multi-Processor 對稱多處理器結(jié)構(gòu)
特點
Uniform Memory Access
共享存儲:cpu,內(nèi)存,io不足
擴展能力有限
內(nèi)存總線限制訪問內(nèi)存的效率
NUMA -Non-Uniform Memory Access 非一致存儲訪問結(jié)構(gòu)
特點
擁有多個CPU模塊,每個模塊由多個CPU組成,有獨立的本地內(nèi)存,io槽口
節(jié)點之間通過互聯(lián)模塊進行連接和信息交互:同一臺物理服務(wù)器內(nèi)部實現(xiàn),cpu異地訪問時必須等待
較好解決SMP系統(tǒng)的擴展問題不足
互聯(lián)模塊訪問效率和本地內(nèi)存訪問不在一個效率層級,系統(tǒng)性能無法和cpu數(shù)線性增加
MPP -Massive-Parallel Processing 海量并行處理架構(gòu)
另一種系統(tǒng)擴展的方式
特點
SMP組合的方式:每臺SMP服務(wù)器(節(jié)點)通過節(jié)點互聯(lián)網(wǎng)絡(luò)連接。
節(jié)點互聯(lián)網(wǎng)絡(luò):MPP內(nèi)部使用,對用戶透明,在不同SMP服務(wù)器外部通過IO實現(xiàn),每個節(jié)點只訪問本地內(nèi)存和存儲,節(jié)點信息交互和節(jié)點本身是并行處理的。每個節(jié)點只訪問本地資源(內(nèi)存,存儲),Share Nothing結(jié)構(gòu)。對等節(jié)點:所有數(shù)據(jù)節(jié)點角色一樣。可以提升并行計算能力匯總節(jié)點:數(shù)據(jù)匯總節(jié)點的穩(wěn)定性,可用性影響整體的性能 不足
復(fù)雜的機制來調(diào)度和平衡各個節(jié)點的負載和并行處理過程。短板效應(yīng)。
如果一個節(jié)點總是執(zhí)行的慢于集群中其他的節(jié)點,整個集群的性能就會受限于這個故障節(jié)點的執(zhí)行速度(所謂木桶的短板效應(yīng)),無論集群有多少節(jié)點,都不會有所提高。
當MPP系統(tǒng)中某個節(jié)點的RAID由于磁盤問題導(dǎo)致的性能很慢,或者硬件或者系統(tǒng)問題帶來的CPU性能問題等等,都會產(chǎn)生這樣的問題。所有的MPP系統(tǒng)都面臨這樣的問題。MPP集群規(guī)模不能過大。并發(fā)度不能過高,數(shù)據(jù)查詢匯總節(jié)點的并發(fā)查詢數(shù)限制在10+數(shù)量級,用戶數(shù)有限制。
MPP DB
- Share Disk
使用獨立的cpu,內(nèi)存,,共享硬盤系統(tǒng),不存在數(shù)據(jù)同步問題,有存儲瓶頸問題
OracleRac
- Share Nothing
水平擴展靈活,元數(shù)據(jù)同步、故障恢復(fù)問題
典型MPP DB
了解MPP的架構(gòu)特點,再來看看有代表性的一些產(chǎn)品,是不是有一種大同小異、豁然開朗的感覺。
Greenplum
PostgreSQL的基礎(chǔ)上 、MPP架構(gòu)
關(guān)系型分布式數(shù)據(jù)倉庫
兼容Hadoop生態(tài),-》HAWQ,存儲層改用HDFS.
架構(gòu)
大規(guī)模存儲
Hash分片,表分區(qū):數(shù)據(jù)到各個Segment Host并行處理支持索引
B-Tree
Bitmap
Hash
Teradata
暫無了解
Impala
Presto
Distributed SQL Query Engine for Big Data
官方文檔
presto目標定位
Presto is a tool designed to efficiently query vast amounts of data using distributed queries. If you work with terabytes or petabytes of data, you are likely using tools that interact with Hadoop and HDFS. Presto was designed as an alternative to tools that query HDFS using pipelines of MapReduce jobs such as Hive or Pig, but Presto is not limited to accessing HDFS. Presto can be and has been extended to operate over different kinds of data sources including traditional relational databases and other data sources such as Cassandra.
Presto was designed to handle data warehousing and analytics: data analysis, aggregating large amounts of data and producing reports. These workloads are often classified as Online Analytical Processing (OLAP).
presto組件
presto使用
presto 與 Impala區(qū)別
ES
MPP架構(gòu)的應(yīng)用場景
搜索架構(gòu)
查詢
client節(jié)點,數(shù)據(jù)匯總節(jié)點(協(xié)調(diào)節(jié)點),并行計算節(jié)點。
協(xié)調(diào)節(jié)點也是集群中任意同構(gòu)的計算節(jié)點,其性能、穩(wěn)定性、可用性決定了集群的整體表現(xiàn)。
MPP與Batch的優(yōu)缺點比較
總結(jié)
以上是生活随笔為你收集整理的MPP架构是什么?看这一篇就行了。。的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 汽车空调压力开关多久更换
- 下一篇: 土豆发芽了把芽去掉还能吃吗