水平分库分表的关键步骤以及可能遇到的问题
http://www.infoq.com/cn/articles/key-steps-and-likely-problems-of-horizontal-split-table
分片技術(shù)的由來
關(guān)系型數(shù)據(jù)庫本身比較容易成為系統(tǒng)性能瓶頸,單機存儲容量、連接數(shù)、處理能力等都很有限,數(shù)據(jù)庫本身的“有狀態(tài)性”導致了它并不像Web和應(yīng)用服務(wù)器那么容易擴展。在互聯(lián)網(wǎng)行業(yè)海量數(shù)據(jù)和高并發(fā)訪問的考驗下,聰明的技術(shù)人員提出了分庫分表技術(shù)(有些地方也稱為Sharding、分片)。同時,流行的分布式系統(tǒng)中間件(例如MongoDB、ElasticSearch等)均自身友好支持Sharding,其原理和思想都是大同小異的。
分布式全局唯一ID
在很多中小項目中,我們往往直接使用數(shù)據(jù)庫自增特性來生成主鍵ID,這樣確實比較簡單。而在分庫分表的環(huán)境中,數(shù)據(jù)分布在不同的分片上,不能再借助數(shù)據(jù)庫自增長特性直接生成,否則會造成不同分片上的數(shù)據(jù)表主鍵會重復。簡單介紹下使用和了解過的幾種ID生成算法。
?
其中,Twitter 的Snowflake算法是筆者近幾年在分布式系統(tǒng)項目中使用最多的,未發(fā)現(xiàn)重復或并發(fā)的問題。該算法生成的是64位唯一Id(由41位的timestamp+ 10位自定義的機器碼+ 13位累加計數(shù)器組成)。這里不做過多介紹,感興趣的讀者可自行查閱相關(guān)資料。
常見分片規(guī)則和策略
分片字段該如何選擇
在開始分片之前,我們首先要確定分片字段(也可稱為“片鍵”)。很多常見的例子和場景中是采用ID或者時間字段進行拆分。這也并不絕對的,我的建議是結(jié)合實際業(yè)務(wù),通過對系統(tǒng)中執(zhí)行的sql語句進行統(tǒng)計分析,選擇出需要分片的那個表中最頻繁被使用,或者最重要的字段來作為分片字段。
常見分片規(guī)則
常見的分片策略有隨機分片和連續(xù)分片這兩種,如下圖所示:
當需要使用分片字段進行范圍查找時,連續(xù)分片可以快速定位分片進行高效查詢,大多數(shù)情況下可以有效避免跨分片查詢的問題。后期如果想對整個分片集群擴容時,只需要添加節(jié)點即可,無需對其他分片的數(shù)據(jù)進行遷移。但是,連續(xù)分片也有可能存在數(shù)據(jù)熱點的問題,就像圖中按時間字段分片的例子,有些節(jié)點可能會被頻繁查詢壓力較大,熱數(shù)據(jù)節(jié)點就成為了整個集群的瓶頸。而有些節(jié)點可能存的是歷史數(shù)據(jù),很少需要被查詢到。
隨機分片其實并不是隨機的,也遵循一定規(guī)則。通常,我們會采用Hash取模的方式進行分片拆分,所以有些時候也被稱為離散分片。隨機分片的數(shù)據(jù)相對比較均勻,不容易出現(xiàn)熱點和并發(fā)訪問的瓶頸。但是,后期分片集群擴容起來需要遷移舊的數(shù)據(jù)。使用一致性Hash算法能夠很大程度的避免這個問題,所以很多中間件的分片集群都會采用一致性Hash算法。離散分片也很容易面臨跨分片查詢的復雜問題。
數(shù)據(jù)遷移,容量規(guī)劃,擴容等問題
很少有項目會在初期就開始考慮分片設(shè)計的,一般都是在業(yè)務(wù)高速發(fā)展面臨性能和存儲的瓶頸時才會提前準備。因此,不可避免的就需要考慮歷史數(shù)據(jù)遷移的問題。一般做法就是通過程序先讀出歷史數(shù)據(jù),然后按照指定的分片規(guī)則再將數(shù)據(jù)寫入到各個分片節(jié)點中。
此外,我們需要根據(jù)當前的數(shù)據(jù)量和QPS等進行容量規(guī)劃,綜合成本因素,推算出大概需要多少分片(一般建議單個分片上的單表數(shù)據(jù)量不要超過1000W)。
如果是采用隨機分片,則需要考慮后期的擴容問題,相對會比較麻煩。如果是采用的范圍分片,只需要添加節(jié)點就可以自動擴容。
跨分片技術(shù)問題
跨分片的排序分頁
一般來講,分頁時需要按照指定字段進行排序。當排序字段就是分片字段的時候,我們通過分片規(guī)則可以比較容易定位到指定的分片,而當排序字段非分片字段的時候,情況就會變得比較復雜了。為了最終結(jié)果的準確性,我們需要在不同的分片節(jié)點中將數(shù)據(jù)進行排序并返回,并將不同分片返回的結(jié)果集進行匯總和再次排序,最后再返回給用戶。如下圖所示:
上面圖中所描述的只是最簡單的一種情況(取第一頁數(shù)據(jù)),看起來對性能的影響并不大。但是,如果想取出第10頁數(shù)據(jù),情況又將變得復雜很多,如下圖所示:
有些讀者可能并不太理解,為什么不能像獲取第一頁數(shù)據(jù)那樣簡單處理(排序取出前10條再合并、排序)。其實并不難理解,因為各分片節(jié)點中的數(shù)據(jù)可能是隨機的,為了排序的準確性,必須把所有分片節(jié)點的前N頁數(shù)據(jù)都排序好后做合并,最后再進行整體的排序。很顯然,這樣的操作是比較消耗資源的,用戶越往后翻頁,系統(tǒng)性能將會越差。
跨分片的函數(shù)處理
在使用Max、Min、Sum、Count之類的函數(shù)進行統(tǒng)計和計算的時候,需要先在每個分片數(shù)據(jù)源上執(zhí)行相應(yīng)的函數(shù)處理,然后再將各個結(jié)果集進行二次處理,最終再將處理結(jié)果返回。如下圖所示:
跨分片join
Join是關(guān)系型數(shù)據(jù)庫中最常用的特性,但是在分片集群中,join也變得非常復雜。應(yīng)該盡量避免跨分片的join查詢(這種場景,比上面的跨分片分頁更加復雜,而且對性能的影響很大)。通常有以下幾種方式來避免:
全局表
全局表的概念之前在“垂直分庫”時提過。基本思想一致,就是把一些類似數(shù)據(jù)字典又可能會產(chǎn)生join查詢的表信息放到各分片中,從而避免跨分片的join。
ER分片
在關(guān)系型數(shù)據(jù)庫中,表之間往往存在一些關(guān)聯(lián)的關(guān)系。如果我們可以先確定好關(guān)聯(lián)關(guān)系,并將那些存在關(guān)聯(lián)關(guān)系的表記錄存放在同一個分片上,那么就能很好的避免跨分片join問題。在一對多關(guān)系的情況下,我們通常會選擇按照數(shù)據(jù)較多的那一方進行拆分。如下圖所示:
這樣一來,Data Node1上面的訂單表與訂單詳細表就可以直接關(guān)聯(lián),進行局部的join查詢了,Data Node2上也一樣。基于ER分片的這種方式,能夠有效避免大多數(shù)業(yè)務(wù)場景中的跨分片join問題。
內(nèi)存計算
隨著spark內(nèi)存計算的興起,理論上來講,很多跨數(shù)據(jù)源的操作問題看起來似乎都能夠得到解決。可以將數(shù)據(jù)丟給spark集群進行內(nèi)存計算,最后將計算結(jié)果返回。
跨分片事務(wù)問題
跨分片事務(wù)也分布式事務(wù),想要了解分布式事務(wù),就需要了解“XA接口”和“兩階段提交”。值得提到的是,MySQL5.5x和5.6x中的xa支持是存在問題的,會導致主從數(shù)據(jù)不一致。直到5.7x版本中才得到修復。Java應(yīng)用程序可以采用Atomikos框架來實現(xiàn)XA事務(wù)(J2EE中JTA)。感興趣的讀者可以自行參考《分布式事務(wù)一致性解決方案》,鏈接地址:
http://www.infoq.com/cn/articles/solution-of-distributed-system-transaction-consistency
我們的系統(tǒng)真的需要分庫分表嗎
讀完上面內(nèi)容,不禁引起有些讀者的思考,我們的系統(tǒng)是否需要分庫分表嗎?
其實這點沒有明確的判斷標準,比較依賴實際業(yè)務(wù)情況和經(jīng)驗判斷。依照筆者個人的經(jīng)驗,一般MySQL單表1000W左右的數(shù)據(jù)是沒有問題的(前提是應(yīng)用系統(tǒng)和數(shù)據(jù)庫等層面設(shè)計和優(yōu)化的比較好)。當然,除了考慮當前的數(shù)據(jù)量和性能情況時,作為架構(gòu)師,我們需要提前考慮系統(tǒng)半年到一年左右的業(yè)務(wù)增長情況,對數(shù)據(jù)庫服務(wù)器的QPS、連接數(shù)、容量等做合理評估和規(guī)劃,并提前做好相應(yīng)的準備工作。如果單機無法滿足,且很難再從其他方面優(yōu)化,那么說明是需要考慮分片的。這種情況可以先去掉數(shù)據(jù)庫中自增ID,為分片和后面的數(shù)據(jù)遷移工作提前做準備。
很多人覺得“分庫分表”是宜早不宜遲,應(yīng)該盡早進行,因為擔心越往后公司業(yè)務(wù)發(fā)展越快、系統(tǒng)越來越復雜、系統(tǒng)重構(gòu)和擴展越困難…這種話聽起來是有那么一點道理,但我的觀點恰好相反,對于關(guān)系型數(shù)據(jù)庫來講,我認為“能不分片就別分片”,除非是系統(tǒng)真正需要,因為數(shù)據(jù)庫分片并非低成本或者免費的。
這里筆者推薦一個比較靠譜的過渡技術(shù)–“表分區(qū)”。主流的關(guān)系型數(shù)據(jù)庫中基本都支持。不同的分區(qū)在邏輯上仍是一張表,但是物理上卻是分開的,能在一定程度上提高查詢性能,而且對應(yīng)用程序透明,無需修改任何代碼。筆者曾經(jīng)負責優(yōu)化過一個系統(tǒng),主業(yè)務(wù)表有大約8000W左右的數(shù)據(jù),考慮到成本問題,當時就是采用“表分區(qū)”來做的,效果比較明顯,且系統(tǒng)運行的很穩(wěn)定。
小結(jié)
最后,有很多讀者都想了解當前社區(qū)中有沒有開源免費的分庫分表解決方案,畢竟站在巨人的肩膀上能省力很多。當前主要有兩類解決方案:
基于應(yīng)用程序?qū)用娴腄DAL(分布式數(shù)據(jù)庫訪問層)?
比較典型的就是淘寶半開源的TDDL,當當網(wǎng)開源的Sharding-JDBC等。分布式數(shù)據(jù)訪問層無需硬件投入,技術(shù)能力較強的大公司通常會選擇自研或參照開源框架進行二次開發(fā)和定制。對應(yīng)用程序的侵入性一般較大,會增加技術(shù)成本和復雜度。通常僅支持特定編程語言平臺(Java平臺的居多),或者僅支持特定的數(shù)據(jù)庫和特定數(shù)據(jù)訪問框架技術(shù)(一般支持MySQL數(shù)據(jù)庫,JDBC、MyBatis、Hibernate等框架技術(shù))。
數(shù)據(jù)庫中間件,比較典型的像mycat(在阿里開源的cobar基礎(chǔ)上做了很多優(yōu)化和改進,屬于后起之秀,也支持很多新特性),基于Go語言實現(xiàn)kingSharding,比較老牌的Atlas(由360開源)等。這些中間件在互聯(lián)網(wǎng)企業(yè)中大量被使用。另外,MySQL 5.x企業(yè)版中官方提供的Fabric組件也號稱支持分片技術(shù),不過國內(nèi)使用的企業(yè)較少。?
中間件也可以稱為“透明網(wǎng)關(guān)”,大名鼎鼎的mysql_proxy大概是該領(lǐng)域的鼻祖(由MySQL官方提供,僅限于實現(xiàn)“讀寫分離”)。中間件一般實現(xiàn)了特定數(shù)據(jù)庫的網(wǎng)絡(luò)通信協(xié)議,模擬一個真實的數(shù)據(jù)庫服務(wù),屏蔽了后端真實的Server,應(yīng)用程序通常直接連接中間件即可。而在執(zhí)行SQL操作時,中間件會按照預先定義分片規(guī)則,對SQL語句進行解析、路由,并對結(jié)果集做二次計算再最終返回。引入數(shù)據(jù)庫中間件的技術(shù)成本更低,對應(yīng)用程序來講侵入性幾乎沒有,可以滿足大部分的業(yè)務(wù)。增加了額外的硬件投入和運維成本,同時,中間件自身也存在性能瓶頸和單點故障問題,需要能夠保證中間件自身的高可用、可擴展。
總之,不管是使用分布式數(shù)據(jù)訪問層還是數(shù)據(jù)庫中間件,都會帶來一定的成本和復雜度,也會有一定的性能影響。所以,還需讀者根據(jù)實際情況和業(yè)務(wù)發(fā)展需要慎重考慮和選擇。
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/8995139.html
總結(jié)
以上是生活随笔為你收集整理的水平分库分表的关键步骤以及可能遇到的问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分库分表需要考虑的问题及方案
- 下一篇: 利用Mycat中间件实现RDS MySQ