云原生大数据架构中实时计算维表和结果表的选型实践
簡介:?隨著互聯網技術的日漸發展、數據規模的擴大與復雜的需求場景的產生,傳統的大數據架構無法承載。
作者 | 志羽
來源 | 阿里技術公眾號
一 前言
傳統的大數據技術起源于 Google 三架馬車 GFS、MapReduce、Bigtable,以及其衍生的開源分布式文件系統 HDFS,分布式計算引擎 MapReduce,以及分布式數據庫 HBase。最初的大數據技術與需求往往集中在超大規模數據存儲、數據處理、在線查詢等。在這個階段,很多公司會選擇自建機房部署 Hadoop 的方式,大數據技術與需求集中在離線計算與大規模存儲上,常見的體現方式有 T+1 報表,大規模數據在線查詢等。
隨著互聯網技術的日漸發展、數據規模的擴大與復雜的需求場景的產生,傳統的大數據架構無法承載。大數據架構在近些年的演進主要體現下以下幾方面:
本篇文章將基于云原生大數據架構的場景,詳細討論實時計算中的維表和結果表的架構選型。
二 大數據架構中的實時計算
1 實時計算場景
大數據的高速發展已經超過 10 年,大數據也正在從計算規?;蚋訉崟r化的趨勢演進。實時計算場景主要有以下幾種最常見的場景:
2 Flink SQL 實時計算
實時計算需要后臺有一套極其強大的大數據計算能力,Apache Flink 作為一款開源大數據實時計算技術應運而生。由于傳統的 Hadoop、Spark 等計算引擎,本質上是批計算引擎,通過對有限的數據集進行數據處理,其處理時效性是不能保證的。而 Apache Flink ,從設計之初就以定位為流式計算引擎,它可以實時訂閱實時產生的流式數據,對數據進行實時分析處理并產生結果,讓數據在第一時間發揮價值。
Flink 選擇了 SQL 這種聲明式語言作為頂層 API,方便用戶使用,也符合云原生大數據架構的趨勢:
上圖是 Flink SQL 的一些基本操作。可以看到 SQL 的語法和標準 SQL 非常類似,示例中包括了基本的 SELECT、FILTER 操作,可以使用內置函數(如日期的格式化),也可以在注冊函數后使用自定義函數。
Flink SQL 將實時計算拆分成源表,結果表和維表三種,將這三種表的 DDL 語句(比如 CREATE TABLE)注冊各類輸入、輸出的數據源,通過 SQL 的 DML(比如 INSERT INTO)表示實時計算任務的拓撲關系,以達到通過 SQL 完成實時計算任務開發的效果。
下圖是一個完整的實時計算示例,示例中的 Flink SQL 任務,這個任務的目標是計算每分鐘不同商品分類的 GMV (Gross Merchandise Volume,即商品交易總額)。在這個任務中,Flink 實時消費用戶訂單數據的 Kafka 源表,通過 Redis 維表將商品 id 關聯起來獲取到商品分類,按照 1 分鐘間隔的滾動窗口按商品分類將總計的交易金額計算出來,將最后的結果寫入 RDS(Relational Database Service,如 MySQL) 結果表中。
# 源表 - 用戶訂單數據,代表某個用戶(user_id)在 timestamp 時按 price 的價格購買了商品(item_id) CREATE TEMPORARY TABLE user_action_source (`timestamp` BIGINT,`user_id` BIGINT,`item_id` BIGINT,`price` DOUBLE,SQs ) WITH ('connector' = 'kafka','topic' = '<your_topic>','properties.bootstrap.servers' = 'your_kafka_server:9092','properties.group.id' = '<your_consumer_group>''format' = 'json','scan.startup.mode' = 'latest-offset' );# 維表 - 物品詳情 CREATE TEMPORARY TABLE item_detail_dim (id STRING,catagory STRING,PRIMARY KEY (id) NOT ENFORCED ) WITH ('connector' = 'redis','host' = '<your_redis_host>','port' = '<your_redis_port>','password' = '<your_redis_password>','dbNum' = '<your_db_num>' );# 結果表 - 按時間(分鐘)和分類的 GMV 輸出 CREATE TEMPORARY TABLE gmv_output (time_minute STRING,catagory STRING,gmv DOUBLE,PRIMARY KEY (time_minute, catagory) ) WITH (type='rds',url='<your_jdbc_mysql_url_with_database>',tableName='<your_table>',userName='<your_mysql_database_username>',password='<your_mysql_database_password>' );# 處理過程 INSERT INTO gmv_output SELECT TUMBLE_START(s.timestamp, INTERVAL '1' MINUTES) as time_minute,d.catagory,SUM(d.price) as gmv FROMuser_action_source sJOIN item_detail_dim FOR SYSTEM_TIME AS OF PROCTIME() as dON s.item_id = d.id GROUP BY TUMBLE(s.timestamp, INTERVAL '1' MINUTES), d.catagory;這是一個很常見的實時計算的處理鏈路。后續章節中,我們將針對實時計算的維表和結果表的關鍵能力進行展開分析,并分別進行架構選型的討論。
三 實時計算維表
1 關鍵需求
在數據倉庫的建設中,一般都會圍繞著星型模型和雪花模型來設計表關系或者結構。實時計算也不例外,一種常見的需求就是為數據流補齊字段。因為數據采集端采集到的數據往往比較有限,在做數據分析之前,就要先將所需的維度信息補全。比如采集到的交易日志中只記錄了商品 id,但是在做業務時需要根據店鋪維度或者行業緯度進行聚合,這就需要先將交易日志與商品維表進行關聯,補全所需的維度信息。這里所說的維表與數據倉庫中的概念類似,是維度屬性的集合,比如商品維度、用戶度、地點維度等等。
作為保存用戶維度信息的數據存儲,需要應對實時計算場景下的海量低延時訪問。根據這樣的定位,我們總結下對結構化大數據存儲的幾個關鍵需求:
1. 高吞吐與低延時的讀取能力
首當其沖,在不考慮開源引擎 Flink 自身維表的優化外,維表必須能承擔實時計算場景下的海量(上萬 QPS)的數據訪問,也能在極低(毫秒級別)的延時下返回查詢數據。
2. 與計算引擎的高整合能力
在維表自身的能力之外,出于性能、穩定性和成本的考慮,計算引擎自身往往也會有些流量卸載的能力,在一些情況下無需每次請求都需要去訪問下游維表。例如,Flink 在維表場景下支持 Async IO 和緩存策略等優化特性。一個比較好的維表需要和開源計算引擎有著較高程度的對接,一方面可以提升計算層的性能,一方面也可以有效的卸載部分流量,保障維表不被過多訪問擊穿,并降低維表的計算成本。
3. 輕存儲下的計算能力的彈性
維表通常是一張共享表,存儲維度屬性等元數據信息,訪問規模往往較大,而存儲規模往往不會特別大。對維表的訪問規模極大地依賴實時數據流的數據量。比如,如果實時流的數據規模擴大了數十倍,此時對維表的訪問次數會大大提升;又比如,如果新增了多個實時計算任務訪問該維表,該維表的查詢壓力會激增。在這些場景下,存儲規模往往不會顯著增加。
所以,計算最好是按需的,是彈性的。無論是新增或者下線實時計算任務,或者增加訪問流量,都不會影響訪問性能。同時,計算和存儲是應該分離的,不會單純因為訪問計算量的激增就增加存儲成本。
2 架構選型
MySQL
大數據和實時計算技術起步之初,互聯網早期大量流行 LAMP (Linux + Apache + MySQL + PHP)架構快速開發站點。因此,由于業務歷史數據已經存在 MySQL 中,在最初的實時計算維表選型中大量使用 MySQL 作為維表。
隨著大數據架構的更新,MySQL 云上架構也在不斷改進,但在維表的應用場景下仍然存在以下問題:
以上這些限制使 MySQL 在大數據維表場景下存在性能瓶頸,成本也比較高。但總體來說,MySQL 是非常優秀的數據庫產品,在數據規模不怎么大的場景下,MySQL 絕對是個不錯的選擇。
Redis
在云上應用架構中,由于 MySQL 難以承載不斷增加的業務負載,往往會使用 Redis 作為 MySQL 的查詢結果集緩存,幫助 MySQL 來抵御大部分的查詢流量。
在這種架構中,MySQL 作為主存儲服務器,Redis 作為輔助存儲,MySQL 到 Redis 的同步可以通過 binlog 實時同步或者 MySQL UDF + 觸發器的方式實現。在這種架構中,Redis 可以用來緩存提高查詢性能,同時降低 MySQL 被擊穿的風險。
由于在 Redis 中緩存了一份弱一致性的用戶數據,Redis 也常常用來作為實時計算的維表。相比于 MySQL 作為維表,Redis 有著獨特的優勢:
Redis 有其突出的優點,但也有一個不可忽視的缺陷:雖然 Redis 有著不錯的擴展方案,但由于高速緩存的數據存在內存中,成本較高,如果遇到業務數據的維度屬性較大(比如用戶維度、商品維度)時,使用 Redis 作為維表存儲時成本極高。
Tablestore
Tablestore是阿里云自研的結構化大數據存儲產品,具體產品介紹可以參考官網以及權威指南。在大數據維表的場景下,Tablestore 有著獨特的優勢:
方案對比
上面是前文提到的幾個維表方案在各個維度的對比。接下來,將舉幾個具體的場景細致對比下成本:
1.高存儲高計算:維表需要存 100 億條訂單維度的數據,總計存儲量需要 1T,盡管業務在 Flink 任務端配置了緩存策略,但仍然有較高的 KV 查詢下沉到維表,到維表的 QPS 峰值 10 萬,均值 2.5 萬。不同維表所需的配置要求和購買成本如下:
2.低存儲低計算:維表需要存 100 萬條地域維度的數據,總計存儲量需要 10M,業務端在 Flink 任務中的維表配置了 LRU 緩存策略抵御了絕大部分的流量,到維表的 QPS 峰值 1000 均值 250。不同維表所需的配置要求和購買成本如下:
3.高存儲低計算:維表需要存 100 億條訂單維度的數據,總計存儲量需要 1T,業務端在 Flink 任務中的維表配置了 LRU 緩存策略抵御了絕大部分的流量,到維表的 QPS 峰值 1000 均值 250。不同維表所需的配置要求和購買成本如下:
4.低存儲高計算:Redis 作為內存數據庫,具有超高頻的數據 KV 查詢能力,僅 4 核 8G 內存的 Redis集群,即可支持 16 萬 QPS的并發訪問,成本預計 1600 元 / 月,在低存儲高計算場景有著鮮明的成本優勢。
從上面的成本對比報告中可見:
1)MySQL 由于缺乏存儲和計算的彈性,以及關系型數據庫固有的缺點,在不同程度的存儲和計算規模下成本均較高。
2)Redis 作為內存數據庫,在低存儲(約 128G 以下)高計算場景有著鮮明的成本優勢,但由于內存存儲成本很高、缺乏彈性,隨著數據規模的提升,成本呈指數增長。
3)Tablestore 基于云原生架構可以按量對存儲和計算進行彈性,在數據存儲和訪問規模不大時成本較低。
4)Tablestore 作為 NoSQL 數據庫存儲成本很低,在高存儲(128G 以上)場景下有著鮮明的成本優勢。
四 實時計算結果表
1 需求分析
結果表作為實時計算完成后數據導入的存儲系統,主要可分為關系數據庫、搜索引擎、結構化大數據離線存儲、結構化大數據在線存儲幾種分類,具體差異通過以下表格進行了歸納。
對于這幾種數據產品,在各自場景下各有優勢,起源的先后也各有不同。為了方便探究,我們將問題域縮小,僅僅考慮實時計算的場景下,一個更好的結果表存儲需要承擔什么樣的角色。
上文提到了實時計算的主要幾個場景中,實時數倉,實時推薦,實時監控三個場景需要考慮結果表的選型。我們一一分析。
2 關鍵能力
通過以上的需求分析,我們可以總結出幾項實時大數據結果表的關鍵能力:
1.大規模數據存儲
結果表存儲的定位是集中式的大規模存儲,作為在線數據庫的匯總,或者是實時計算(或者是離線)的輸入和輸出,必須要能支撐 PB 級規模數據存儲。
2.豐富的數據查詢與聚合分析能力
結果表需要擁有豐富的數據查詢與聚合分析能力,需要為支撐高效在線查詢做優化。常見的查詢優化包括高速緩存、高并發低延遲的隨機查詢、復雜的任意字段條件組合查詢以及數據檢索。這些查詢優化的技術手段就是緩存和索引,其中索引的支持是多元化的,面向不同的查詢場景提供不同類型的索引。例如面向固定組合查詢的基于 B+tree 的二級索引,面向地理位置查詢的基于 R-tree 或 BKD-tree 的空間索引或者是面向多條件組合查詢和全文檢索的倒排索引。
3.高吞吐寫入能力
實時計算的數據表需要能承受大數據計算引擎的海量結果數據集導出。所以必須能支撐高吞吐的數據寫入,通常會采用一個為寫入而優化的存儲引擎。
4.數據派生能力
一個完整的數據系統架構下,需要有多個存儲組件并存。并且根據對查詢和分析能力的不同要求,需要在數據派生體系下對存儲進行動態擴展。所以對于大數據存儲來說,也需要有能擴展存儲的派生能力,來擴展數據處理能力。而判斷一個存儲組件是否具備更好的數據派生能力,就看是否具備成熟的 CDC 技術。
5.云原生架構:存儲與計算成本分離
在云原生大數據架構中,每一層架構都在往服務化的趨勢演進,存儲服務化、計算服務化、元數據管理服務化等。每個組件都被要求拆分成不同的單元,作為結果表也不例外,需要具備獨立擴展的能力,更開放、更靈活、更彈性。
單就從結果表來說,只有符合云原生架構的組件,即基于存儲計算分離架構實現的產品,才能做到存儲和計算成本的分離,以及獨立擴展。存儲和計算分離的優勢,在大數據系統下會更加明顯。舉一個簡單的例子,結構化大數據存儲的存儲量會隨著數據的積累越來越大,但是數據寫入量是相對平穩的。所以存儲需要不斷的擴大,但是為了支撐數據寫入或臨時的數據分析而所需的計算資源,則相對來說比較固定,是按需的。
3 架構選型
MySQL
和維表一樣,大數據和實時計算技術起步之初,MySQL 是一個萬能存儲,幾乎所有需求都可以通過 MySQL 來完成,因此應用規模非常廣,結果表也不例外。隨著數據規模的不斷擴展和需求場景的日漸復雜,MySQL 有點難以承載,就結果表的場景下主要存在以下問題:
以上這些限制使 MySQL 在大數據結果表場景下存在性能瓶頸,成本也比較高,但作為關系型數據庫,不是特別適合作為大數據的結果表使用。
HBase
由于關系型數據庫的天然瓶頸,基于 BigTable 概念的分布式 NoSQL 結構化數據庫應運而生。目前開源界比較知名的結構化大數據存儲是 Cassandra 和 HBase,Cassandra 是 WideColumn 模型 NoSQL 類別下排名 Top-1 的產品,在國外應用比較廣泛。這篇文章中,我們重點提下在國內應用更多的 HBase。 HBase 是基于 HDFS 的存儲計算分離架構的 WideColumn 模型數據庫,擁有非常好的擴展性,能支撐大規模數據存儲,它的優點為:
HBase有其突出的優點,但也有幾大不可忽視的缺陷:
國內的高級玩家大多會基于 HBase 做二次開發,基本都是在做各種方案來彌補 HBase 查詢能力弱的問題,根據自身業務查詢特色研發自己的索引方案,例如自研二級索引方案、對接 Solr 做全文索引或者是針對區分度小的數據集的 bitmap 索引方案等等。總的來說,HBase 是一個優秀的開源產品,有很多優秀的設計思路值得借鑒。
HBase + Elasticsearch
為了解決 HBase 查詢能力弱的問題,國內很多公司通過 Elasticsearch 來加速數據檢索,按照 HBase + Elasticsearch 的方案實現他們的架構。其中,HBase 用于做大數據存儲和歷史冷數據查詢,Elasticsearch 用于數據檢索,其中,由于 HBase 不具備 CDC 技術,所以需要業務方應用層雙寫 HBase 和 Elasticsearch,或者啟動數據同步任務將 HBase 同步至 Elasticsearch。
這個方案能通過 Elasticsearch 極大地補足 HBase 查詢能力弱的問題,但由于 HBase 和 Elasticsearch 本身的一些能力不足,會存在以下幾個問題:
Tablestore
Tablestore 是阿里云自研的結構化大數據存儲產品,具體產品介紹可以參考官網以及權威指南。Tablestore 的設計理念很大程度上顧及了數據系統內對結構化大數據存儲的需求,并且基于派生數據體系這個設計理念專門設計和實現了一些特色的功能。簡單概括下 Tablestore 的技術理念:
方案對比
舉一個具體的場景,結果表需要存千億級別的電商訂單交易數據,總計存儲量需要 1T,用戶需要對于這類數據進行查詢與靈活的分析。日常訂單查詢與數據檢索頻率為 1000 次/秒,數據分析約每分鐘查詢 10 次左右。
以下是不同架構達到要求所需的配置,以及在阿里云上的購買成本:
五 總結
本篇文章談了云原生大數據架構下的實時計算維表和結果表場景下的架構設計與選型。其中,阿里云 Tablestore 在這些場景下有一些特色功能,希望能通過本篇文章對我們有一個更深刻的了解。后續,我們會推出從零構建 Flink on Tablestore 系列文章,并針對維表和結果表場景推出最佳實踐文章。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的云原生大数据架构中实时计算维表和结果表的选型实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里巴巴云原生大数据运维平台 SREWo
- 下一篇: 把图片存成视频 python