海量结构化数据解决方案-表格存储场景解读
簡介:?數(shù)據(jù)是驅(qū)動業(yè)務(wù)創(chuàng)新的最核心的資產(chǎn)。不同類型的數(shù)據(jù)如非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片等)、結(jié)構(gòu)化數(shù)據(jù)(訂單、軌跡),面向不同業(yè)務(wù)的使用要求需要選擇適合的存儲引擎,能夠真正發(fā)揮數(shù)據(jù)的價值。針對于海量的非強事務(wù)的海量結(jié)構(gòu)化/半結(jié)構(gòu)數(shù)據(jù),表格存儲一站式解決。這里詳細(xì)解讀該適合場景的使用解讀。
數(shù)據(jù)是驅(qū)動業(yè)務(wù)創(chuàng)新的最核心的資產(chǎn)。不同類型的數(shù)據(jù)如非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片等)、結(jié)構(gòu)化數(shù)據(jù)(訂單、軌跡),面向不同業(yè)務(wù)的使用要求需要選擇適合的存儲引擎,能夠真正發(fā)揮數(shù)據(jù)的價值。
比如:非結(jié)構(gòu)化的數(shù)據(jù)-視頻圖片等適合對象存儲OSS,強事務(wù)的結(jié)構(gòu)化數(shù)據(jù)-交易訂單適合MySQL。
而針對于海量的非強事務(wù)的海量結(jié)構(gòu)化/半結(jié)構(gòu)數(shù)據(jù):
這些場景特點是:
1. 數(shù)據(jù)規(guī)模大,常見的關(guān)系型數(shù)據(jù)庫難以存儲。
2.需要支持很高的讀寫吞吐與極低的響應(yīng)延遲。
3. 數(shù)據(jù)結(jié)構(gòu)相對簡單,無跨數(shù)據(jù)表的關(guān)聯(lián)查詢,數(shù)據(jù)存儲寫入是無需復(fù)雜的事務(wù)機制。
表格存儲Talestore正是為了解決上述數(shù)據(jù)的存儲、訪問以及計算。
歷史訂單場景
在電商、金融、外賣、新零售等所有涉及交易與協(xié)定的所有場景中,都涉及大量的訂單。記錄社會方方面面。傳統(tǒng)關(guān)系型數(shù)據(jù)能夠解決需要支持強一致的事務(wù)的在線業(yè)務(wù),但海量的訂單關(guān)系型數(shù)據(jù)無法保存全量數(shù)據(jù),需要數(shù)據(jù)分層。
架構(gòu)核心需求:
- 在線數(shù)據(jù)同步:做實時數(shù)據(jù)與歷史數(shù)據(jù)分層—支持實時同步在線業(yè)務(wù)
- 歷史數(shù)據(jù)存儲:歷史訂單數(shù)據(jù)存儲—支持低延遲數(shù)據(jù)點查,搜索。
- 高性價比海量存儲數(shù)據(jù)分析:針對歷史庫進行報備統(tǒng)計分析—需支持計算組件分析統(tǒng)計!
核心優(yōu)勢
- 彌補在線庫容量問題,降低在線庫壓力
- PB級歷史庫存儲,可全量保存所有數(shù)據(jù),并能提供低延遲高并發(fā)查詢
- 索引訂單內(nèi)多字段,提供任意條件組合查詢
?
IM/Feed流場景
IM(Instant Messaging,即時通訊)成為當(dāng)前互聯(lián)網(wǎng)業(yè)務(wù)基礎(chǔ)組件,在社交、游戲、直播等場景廣泛需要。需要高效支持海量消息的存儲、同步、檢索。 ?
架構(gòu)核心組件
- 消息歷史庫:按對話存儲歷史消息—需海量數(shù)據(jù),存儲易拓展
- 消息同步庫:按接受者存儲同步消息—需支持高并發(fā)寫入,實時拉取(寫擴散)
- 消息索引:針對歷史庫數(shù)據(jù)支持?jǐn)?shù)據(jù)檢索—需數(shù)據(jù)更新同步
核心優(yōu)勢
- Tablestore Timeline 消息模型,專為 IM/Feeds 場景設(shè)計,簡化開發(fā)
- 同步表百 TB 存儲,存儲表 PB 級存儲。
- 分布式架構(gòu),LSM存儲引擎,支撐每秒百萬寫擴散消息寫入,毫秒級同步庫拉取
- 讀寫擴散混合同步模型
時序場景-監(jiān)控/IOT
針對實時數(shù)據(jù)的記錄與分析極大的豐富了我們對于數(shù)據(jù)的使用場景。針對系統(tǒng)的運維監(jiān)控、針對Iot場景中對于環(huán)境與人的監(jiān)控都更有效幫助我們做事實理解與決策。這里需要面臨眾多設(shè)備與系統(tǒng)的高并發(fā)寫入與數(shù)據(jù)存儲,以及決策分析。
場景核心需求
- 數(shù)據(jù)高并發(fā)寫入:面向眾多設(shè)備與系統(tǒng)支持百萬級節(jié)點實時寫入
- 數(shù)據(jù)實時聚合:針對原始數(shù)據(jù)監(jiān)控預(yù)聚合,降低精度—支持?jǐn)?shù)據(jù)實時同步對接流計算
- 數(shù)據(jù)存儲:長久保存數(shù)據(jù)—需單表規(guī)模極大,高性價比存儲
核心優(yōu)勢
- 核心單表數(shù)據(jù)規(guī)模達 10 PB,可自定義數(shù)據(jù)生命周期
- 核心單表持續(xù)每秒寫入進?5000萬個數(shù)據(jù)點
- 數(shù)據(jù)實時寫入,大大提升數(shù)據(jù)可見時效性
- 毫秒級實時查詢展示趨勢圖和報表,查詢性能不受單表規(guī)模約束
輿情&風(fēng)控分析
針對輿情信息的分析與把控,可以有效的分析與洞察市場。比如針對點評、新聞、評論等信息的收集分析。需要豐富的多類數(shù)據(jù)高并發(fā)寫入與便捷的數(shù)據(jù)流轉(zhuǎn)進行計算分析
場景核心需求
- 原始數(shù)據(jù)寫入存儲:海量數(shù)據(jù)爬蟲需要高并發(fā)寫入能力與PB及存儲。
- 多數(shù)據(jù)類型存儲:爬取的內(nèi)容與生成的標(biāo)簽類似豐富需要寫入Schema-Free
- 數(shù)據(jù)分析:針對數(shù)據(jù)分階段處理原始信息->結(jié)構(gòu)化標(biāo)簽->結(jié)果存儲—需要支持實時計算與離線計算對接
核心優(yōu)勢
- 分布式 LSM 引擎數(shù)據(jù)存儲,提供高并發(fā)高吞吐寫入,PB 級數(shù)據(jù)存儲
- 通過數(shù)據(jù)更新捕獲,實時觸發(fā)后續(xù)對數(shù)據(jù)的自定義處理邏輯
- 與大數(shù)據(jù)平臺實時數(shù)據(jù)同步,分析結(jié)果寫入結(jié)果表,供應(yīng)用層實時查詢
推薦系統(tǒng)
推薦系統(tǒng)作為當(dāng)前所有業(yè)務(wù)精細(xì)化運營的主要抓手,顛覆了傳統(tǒng)內(nèi)容輸出方式,成為當(dāng)前海量信息時代流轉(zhuǎn)的核心引擎。廣泛在電商、短視頻、新聞等場景應(yīng)用。需要高效支持海量消息存儲與實時、離線分析。?
架構(gòu)核心組件
- 行為日志:存儲客戶端寫入實時數(shù)據(jù)—需高并發(fā)寫入,支持對接流式計算實時分析
- 歷史數(shù)據(jù):冷數(shù)據(jù)同步下沉至OSS數(shù)據(jù)湖—需支持?jǐn)?shù)據(jù)投遞、便于數(shù)據(jù)分層
- 用戶標(biāo)簽:針對分析標(biāo)簽與推薦信息存儲—需支持屬性列橫向拓展,高效檢索
核心優(yōu)勢
- 數(shù)據(jù)規(guī)模:存儲量無上限,冷熱數(shù)據(jù)分層靈活定義
- 海量并發(fā):單表寫入水平擴展,支持億行每秒級別
- 數(shù)據(jù)實時寫入,實時可見
- 數(shù)據(jù)實時投遞 OSS數(shù)據(jù)湖, Tablestore 只存儲熱數(shù)據(jù),提供豐富索引,高吞吐掃描
?
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的海量结构化数据解决方案-表格存储场景解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时化或成必然趋势?新一代 Server
- 下一篇: 【产品能力深度解读】连续入围Gartne