當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

MPP架构是什么？看这一篇就行了。。

發(fā)布時間：2024/8/26 综合教程 28 生活家

生活随笔收集整理的這篇文章主要介紹了 MPP架构是什么？看这一篇就行了。。小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

MPP是什么SMP- Symmetric Multi-Processor 對稱多處理器結(jié)構(gòu)NUMA -Non-Uniform Memory Access 非一致存儲訪問結(jié)構(gòu)MPP -Massive-Parallel Processing 海量并行處理架構(gòu)
MPP DB- Share Disk- Share Nothing
典型MPP DBGreenplumTeradataImpalaPrestoES
MPP架構(gòu)的應(yīng)用場景搜索架構(gòu)查詢

學(xué)習(xí)筆記：大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí)

MPP是什么

系統(tǒng)架構(gòu)層面的服務(wù)器分類，如下三類：

SMP- Symmetric Multi-Processor 對稱多處理器結(jié)構(gòu)

特點
Uniform Memory Access
共享存儲：cpu,內(nèi)存，io不足
擴展能力有限
內(nèi)存總線限制訪問內(nèi)存的效率

NUMA -Non-Uniform Memory Access 非一致存儲訪問結(jié)構(gòu)

特點
擁有多個CPU模塊，每個模塊由多個CPU組成，有獨立的本地內(nèi)存，io槽口
節(jié)點之間通過互聯(lián)模塊進行連接和信息交互:同一臺物理服務(wù)器內(nèi)部實現(xiàn)，cpu異地訪問時必須等待
較好解決SMP系統(tǒng)的擴展問題不足
互聯(lián)模塊訪問效率和本地內(nèi)存訪問不在一個效率層級，系統(tǒng)性能無法和cpu數(shù)線性增加

MPP -Massive-Parallel Processing 海量并行處理架構(gòu)

另一種系統(tǒng)擴展的方式

特點
SMP組合的方式：每臺SMP服務(wù)器（節(jié)點）通過節(jié)點互聯(lián)網(wǎng)絡(luò)連接。
節(jié)點互聯(lián)網(wǎng)絡(luò)：MPP內(nèi)部使用，對用戶透明，在不同SMP服務(wù)器外部通過IO實現(xiàn)，每個節(jié)點只訪問本地內(nèi)存和存儲，節(jié)點信息交互和節(jié)點本身是并行處理的。每個節(jié)點只訪問本地資源（內(nèi)存，存儲），Share Nothing結(jié)構(gòu)。對等節(jié)點：所有數(shù)據(jù)節(jié)點角色一樣。可以提升并行計算能力匯總節(jié)點：數(shù)據(jù)匯總節(jié)點的穩(wěn)定性，可用性影響整體的性能不足
復(fù)雜的機制來調(diào)度和平衡各個節(jié)點的負載和并行處理過程。短板效應(yīng)。
如果一個節(jié)點總是執(zhí)行的慢于集群中其他的節(jié)點，整個集群的性能就會受限于這個故障節(jié)點的執(zhí)行速度(所謂木桶的短板效應(yīng))，無論集群有多少節(jié)點，都不會有所提高。
當MPP系統(tǒng)中某個節(jié)點的RAID由于磁盤問題導(dǎo)致的性能很慢，或者硬件或者系統(tǒng)問題帶來的CPU性能問題等等，都會產(chǎn)生這樣的問題。所有的MPP系統(tǒng)都面臨這樣的問題。MPP集群規(guī)模不能過大。并發(fā)度不能過高，數(shù)據(jù)查詢匯總節(jié)點的并發(fā)查詢數(shù)限制在10+數(shù)量級，用戶數(shù)有限制。

MPP DB

- Share Disk

使用獨立的cpu,內(nèi)存，，共享硬盤系統(tǒng)，不存在數(shù)據(jù)同步問題，有存儲瓶頸問題
OracleRac

- Share Nothing

水平擴展靈活，元數(shù)據(jù)同步、故障恢復(fù)問題

典型MPP DB

了解MPP的架構(gòu)特點，再來看看有代表性的一些產(chǎn)品，是不是有一種大同小異、豁然開朗的感覺。

Greenplum

PostgreSQL的基礎(chǔ)上、MPP架構(gòu)
關(guān)系型分布式數(shù)據(jù)倉庫
兼容Hadoop生態(tài)，-》HAWQ,存儲層改用HDFS.

架構(gòu)
大規(guī)模存儲
Hash分片，表分區(qū)：數(shù)據(jù)到各個Segment Host并行處理支持索引
B-Tree
Bitmap
Hash

Teradata

暫無了解

Impala

Presto

Distributed SQL Query Engine for Big Data

官方文檔

presto目標定位
Presto is a tool designed to efficiently query vast amounts of data using distributed queries. If you work with terabytes or petabytes of data, you are likely using tools that interact with Hadoop and HDFS. Presto was designed as an alternative to tools that query HDFS using pipelines of MapReduce jobs such as Hive or Pig, but Presto is not limited to accessing HDFS. Presto can be and has been extended to operate over different kinds of data sources including traditional relational databases and other data sources such as Cassandra.

Presto was designed to handle data warehousing and analytics: data analysis, aggregating large amounts of data and producing reports. These workloads are often classified as Online Analytical Processing (OLAP).

presto組件

presto使用

presto 與 Impala區(qū)別

ES

MPP架構(gòu)的應(yīng)用場景

搜索架構(gòu)

查詢

client節(jié)點，數(shù)據(jù)匯總節(jié)點（協(xié)調(diào)節(jié)點），并行計算節(jié)點。

協(xié)調(diào)節(jié)點也是集群中任意同構(gòu)的計算節(jié)點，其性能、穩(wěn)定性、可用性決定了集群的整體表現(xiàn)。

MPP與Batch的優(yōu)缺點比較

總結(jié)

以上是生活随笔為你收集整理的MPP架构是什么？看这一篇就行了。。的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。