聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的
聚水潭數據倉庫業務介紹
上海聚水潭網絡科技有限公司成立于2014年。聚水潭創建之初,以電商SaaS ERP切入市場,憑借出色的產品和服務,快速獲得市場領先地位。隨著客戶需求的不斷變化,如今聚水潭已經發展成為以SaaS ERP為核心,集多種商家服務為一體的SaaS協同平臺,為全國33萬多家電商企業提供全面的信息化解決方案。
來自阿里巴巴旗下商家服務市場的最新數據顯示,聚水潭已是企業ERP類目中使用商家數最多的軟件。自雙十一購物節誕生以來,團隊經歷了每一次電商大促的考驗,盡管每年承載單量成幾何倍數增加,聚水潭系統依然保持平穩、安全和順暢地運行。2019年11月11日,聚水潭系統處理訂單總量達 2.5億單,成交額超400億元。
基于阿里云的ECS和數據庫產品,聚水潭構建了一整套具有競爭力的電商SaaS平臺,為商家提供訂單管理、倉儲管理、分銷管理和協同供應鏈等功能。并且基于財務和經營數據,為商家提供快速經營報表、分析、測算工具系統。阿里云數據庫為其提供了多元化的數據庫服務。其中AnalyticDB for PostgreSQL(簡稱 ADB PG)分析型數據庫支撐了核心數據倉庫的ETL作業、CRM系統和在線分析報表業務,整體數據量達到 200TB+,每天超過354萬任務運行。過去幾年年來,ADB PG支撐了多次電商大促考驗,2019年雙十一期間聚水潭數倉日數據增量5.6TB,平均寫入TPS 208萬,全程平穩,零業務異常。
聚水潭數倉演進及解決方案
聚水潭在數據倉庫方面,從無到有探索出一整套符合電商SaaS平臺的數據倉庫架構,其數據倉庫演進經歷了從原始期到成熟期的4個階段:
- 原始期(2014年~2016年4月):公司初創期間,數據庫以服務業務系統為主;
- 探索期(2016年4月~2016年9月):業務規模達到一定程度,開始有數據倉庫需求,使用業務數據庫承擔部分數據倉庫功能,隨著業務的增長,業務系統和數倉相互影響;
- 自建期(2016年9月~2018年3月):基于開源Greenplum構建數據倉庫,首先探索了數倉大庫模式,但由于商家眾多,且增長速度快,把商家分攤到中等數倉庫,在商家增長的同時添加中等數倉庫個數方式更符合業務邏輯和業務發展;
- 成熟期(2018年3月~今):數據庫全面擁抱阿里云,數據倉庫全部采用ADB PG構建,ADB PG承載了離線批處理和在線分析查詢等業務。
聚水潭數倉“一路向北”遷移及雙十一保障
每年雙十一對電商平臺是一次全面系統穩定性考察、也是易用性和性能的最好練兵場。阿里云聚石塔電商云平臺在2019年8月啟動“一路向北”遷移,將華東機房服務整體搬遷到張北,提供更大擴展和高性價比服務。聚水潭ADB PG數倉在遷移過程中,即開始了雙十一的規劃。在“一路向北”準備期間,對聚水潭三十多個ADB PG實例進行了水位摸底、瓶頸分析和雙十一業務預期調研,對業務量大、增長迅速的實例進行了針對性調整及擴容。
針對雙十一當天增量數據暴增的情況,在雙十一前對離線批處理和在線報表業務進行了壓測,壓測在變配/擴容/新購實例的基礎上進行,壓測效果滿足業務需求。此外,ADB PG在雙十一前還進行了實例備份巡檢、Xid巡檢、磁盤容量巡檢、CPU巡檢等,確保聚水潭雙十一生產實例的萬無一失。同時雙十一當天及第二天派工程師到客戶現場進行重點保障。目前聚水潭共計有ADB PG三十多個實例,總計1348 CPU核資源。
AnalyticDB for PostgreSQL支撐聚水潭大規模數倉的核心技術
阿里云AnalyticDB for PostgreSQL為采用MPP架構的分布式集群數據庫,完備支持SQL 2003,高度兼容Oracle語法,支持PL/SQL存儲過程,觸發器,支持標準數據庫事務ACID。ADB PG通過行存儲、列存儲、多種分區表和索引等機制,可以支持海量數據的在線交付分析,也支持ETL批處理任務。如下是支持聚水潭海量數據倉庫業務的關鍵技術點:
ADB PG支持數據按列存儲或按列存儲。對于頻繁更新的數據,建議采用行存儲,而對于少量更新的大寬表,可以采用列存儲。列存儲除了可以實現高性能的全表聚合外,還具備存儲的高壓縮比。在聚水潭的數據倉庫里,列存儲數據普遍達到4倍以上的數據壓縮率,從而極大的節省空間,降低成本。
核心數據倉庫的ETL過程,往往都是復雜的多表關聯聚合,最優的執行路徑會帶來數量級上的性能提升。ADB PG具備完備的CBO代價優化器,同時Cascade的SQL優化框架,可以很好的將RBO規則優化同CBO代價優化相互結合,從而指定最優的分布式執行計劃,保證ETL的執行性能。
ADB PG支持多種計劃機制,包括支持表按區間或者值進行分區,支持標準BTree索引,Bitmap位圖索引等,從而保證高性能的分析計算性能。
AnalyticDB for PostgreSQL 產品技術展望
ADB PG 2019年底會上線新一代向量化計算引擎,對于標準TPC-H OLAP benchmark 查詢性能提升1倍以上。當前公測中的最新版本ADB PG 6.0,HTAP能力大幅增強,標準TPC-C OLTP benchmark 支持 20w tpmC,從而對混合復雜場景,高并發 QPS 場景,性能有了質的提升。ADB PG 目前推出一元試用一個月活動,基于其完備功能,卓越性能,是阿里云平臺上快速構建海量實時數倉的最優選擇。
雙12來襲!500元淘寶紅包、iPhone11等你拿。
https://www.aliyun.com/1212/2019/home?utm_content=g_1000092611
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019双11,支付宝有哪些“秘密武器”
- 下一篇: MaxCompute 项目子账号做权限管