當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Facebook 对 Memcache 伸缩性的增强

發(fā)布時間：2025/4/16 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Facebook 对 Memcache 伸缩性的增强小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

概要：Memcached 是一個知名的，簡單的，全內(nèi)存的緩存方案。這篇文章描述了facebook是如何使用memcached來構(gòu)建和擴展一個分布式的key-value存儲來為世界上最大的社交網(wǎng)站服務(wù)的。我們的系統(tǒng)每秒要處理幾十億的請求，同時存儲了幾萬億的數(shù)據(jù)項，可以給全世界超過10億的用戶提供豐富體驗。

1 介紹

近些年SNS網(wǎng)絡(luò)大行其道，這對網(wǎng)站基礎(chǔ)建設(shè)提出了巨大的挑戰(zhàn)。每天有億萬的用戶在使用這些網(wǎng)絡(luò)服務(wù)，巨大的計算、網(wǎng)絡(luò)和I/O資源的需求使傳統(tǒng)的web架構(gòu)不堪重負。SNS網(wǎng)站的基礎(chǔ)架構(gòu)需要滿足：1、近乎實時的交流；2、即時聚合不同來源的內(nèi)容；3、訪問和更新非常熱門的共享內(nèi)容；4、每秒處理幾百萬的用戶請求。

我們將描述我們是如何改進memcached[14]的開源版本，并且用它作為組件來構(gòu)建用于世界上最大的社會化網(wǎng)絡(luò)的分布式key-value存儲的。我們會討論從單集群服務(wù)器擴展成地理上分布式的多集群的歷程。據(jù)我們所知，這個系統(tǒng)是世界上已安裝的規(guī)模最大的memcached系統(tǒng)，每秒可以處理幾十億的請求，存儲數(shù)以萬億的數(shù)據(jù)項。

本文是關(guān)于認識分布式key-value存儲的靈活性和實用性的系列文章[1, 2, 5, 6, 12, 14, 34, 36]的最后一篇。本文關(guān)注于memcached，這是一個全內(nèi)存哈希表的開源實現(xiàn)，它以較低的開銷提供了對共享存儲的低遲延訪問。有了這些特性我們可以構(gòu)建數(shù)據(jù)密集的功能，否則是不可能的。例如，如果一個頁面請求會產(chǎn)生數(shù)以百計的數(shù)據(jù)庫請求，那么這樣的功能只能停止在原型階段，因為實現(xiàn)起來會太慢，代價也太高。然而，在我們的應(yīng)用里，web頁面通常都會從memcached服務(wù)器獲取數(shù)以千計的key-value對。

我們的目標之一，是展現(xiàn)部署在不同尺度（系統(tǒng)）上的重要主題。雖然在所有尺度上是很重要的品質(zhì)，如性能，效率，容錯性和一致性，我們的經(jīng)驗表明，在特定大小的一些素質(zhì)要求比別人更多的努力來實現(xiàn)。舉例來說，保持數(shù)據(jù)的一致性，如果復(fù)制的內(nèi)容是小量的，可以更容易在小尺度的網(wǎng)絡(luò)上實現(xiàn)，相比較大的網(wǎng)絡(luò)往往只是復(fù)制必要的內(nèi)容。此外，找到一個最佳的通信調(diào)度的重要性增加的數(shù)量增加服務(wù)器和網(wǎng)絡(luò)工作成為瓶頸。

??????????? 本文包括四個主要貢獻：（1）我們描述了Facebook的基于memcach架構(gòu)的演化。（2）我們確定memcached的提高性能和增加內(nèi)存效率的改進。（3）我們簡明扼要地講述提高我們的經(jīng)營能力我們的系統(tǒng)規(guī)模的機制。（4）我們對生產(chǎn)工作負載賦予了特色（譯者加：對工作負載進行了分類？）。 ?

2綜述

以下特點大大影響了我們的設(shè)計。第一，用戶閱讀的內(nèi)容比他們創(chuàng)建的要多一個數(shù)量級，這種行為（讀寫的特點）所產(chǎn)生工作負載，顯然讓緩存可以發(fā)揮很大的優(yōu)勢。第二，我們是從多個來源讀取數(shù)據(jù)的，比如MySQL數(shù)據(jù)庫、HDFS設(shè)備和后臺服務(wù)，這種多樣性要求一個靈活的緩存策略，能夠從各個獨立的源中儲存數(shù)據(jù)。

MemCached提供了一組簡單的操作（set、get和delete），使它在一個大規(guī)模的分布式系統(tǒng)中成為注目的基礎(chǔ)組件。開源版本提供了單機內(nèi)存哈希表，在本文中，我們從這個開源版本開始，討論我們是怎么使用這個基礎(chǔ)組件，使它變得更有效，并用它來建一個可以處理每秒數(shù)十億請求的分布式的鍵-值儲存系統(tǒng)。接下來，我們用“memcached”來指代它的源碼或者它運行的二進制實例，用“memcache”來指代由每個實例構(gòu)成的分布式系統(tǒng)。

圖1：Memcache作為填補需求的旁路緩存系統(tǒng)。左半圖說明了WEB服務(wù)器讀取緩存時命中失敗的讀取路徑，右半圖說明其寫路徑。

查詢緩存：我們依賴于memcache來減輕讀取數(shù)據(jù)庫的負擔(dān)。特別的，我們使用memcache作為填補需求的旁路緩存系統(tǒng)，如圖1。當一個Web服務(wù)器需要數(shù)據(jù)時，首先通過一個字符串的鍵在memcache中請求，如果沒有找到，它會從數(shù)據(jù)庫或者從后臺服務(wù)中檢索，再使用該鍵把結(jié)果存回memcache中。對于寫的請求，Web服務(wù)器發(fā)送SQL語句到數(shù)據(jù)庫，接著發(fā)送刪除請求到memcache，使舊的緩存數(shù)據(jù)失效。因為刪除是冪等運算，所以我們使用刪除緩存的方式，而不是更新緩存。

在應(yīng)對MySQL數(shù)據(jù)庫繁重的查詢通信的眾多方法中，我們選擇了memcache，在有限的資源與時間限制下，這是最好的選擇。此外，緩存層與持久層分離，讓我們可以在工作負載發(fā)生變化時快速地調(diào)整。

通用緩存：我們同樣讓memcache成為一個更加通用的鍵-值儲存系統(tǒng)。比如說，工程師們使用memcache保存復(fù)雜的機器學(xué)習(xí)算法的中間結(jié)果，這些結(jié)果能被很多其它應(yīng)用程序所使用。它只需要我們付出很少的努力，就可以讓新增的服務(wù)利用現(xiàn)有的正在使用的基礎(chǔ)設(shè)施，而無需調(diào)整、優(yōu)化、調(diào)配和維護大型的服務(wù)器群。

正如memcached沒有提供服務(wù)器到服務(wù)器的協(xié)同，它僅僅是運行在單機上的一個內(nèi)存哈希表。接下來我們描述我們是如何基于memcached構(gòu)建一個分布式鍵值儲存系統(tǒng)，以勝任在Facebook的工作負載下的操作。

圖2：整體架構(gòu)

論文的結(jié)構(gòu)主要描述了在三種不同的規(guī)模下出現(xiàn)的問題。當我們擁有第一個服務(wù)器集群時，頻繁的讀負載和廣泛的輸出是我們最大的擔(dān)心。當有必要擴展到多個前端集群時，我們解決了集群間的數(shù)據(jù)備份問題。最后，我們描述了一種機制，這種機制讓我們可以在全世界伸展集群的同時提供平滑的用戶體驗。不論在什么尺度上，容錯性和操作復(fù)雜性總是很重要的。我們展示了重要的數(shù)據(jù)參考，這些數(shù)據(jù)指引我們做出了最終的設(shè)計決定，讀者如需獲得更多細節(jié)性的分析，請參看Atikoglu et al.[8]的工作。提綱挈領(lǐng)的解釋參看圖2，這是最終的架構(gòu)，我們將并置集群組織起來，形成一個群體（region），指定一個主群體（master），由主群體提供數(shù)據(jù)流讓非主群體保持數(shù)據(jù)同步。
??????????? 在系統(tǒng)的發(fā)展中，我們將這兩個重大的設(shè)計目標放在首位：
1. 只有已經(jīng)對用戶或者我們的運維產(chǎn)生影響的問題，才值得改變。我們極少考慮范圍有限的優(yōu)化。
2. 對陳舊數(shù)據(jù)的瞬態(tài)讀取，其概率和響應(yīng)度類似，都將作為參數(shù)來調(diào)整。我們會暴露輕度陳舊的數(shù)據(jù)以便后臺存儲和高強度負載絕緣。 ?

3 集群之中：延遲和負載

現(xiàn)在考慮集群中數(shù)以千計的服務(wù)器所帶來的挑戰(zhàn)。在這種規(guī)模之下，我們著眼于減少獲取緩存時的負載，以及緩存不中時數(shù)據(jù)庫的負載。

3.1 減少延遲

不論緩存是否命中，memcache的響應(yīng)時間都是影響總響應(yīng)時間的重要因素。單個的網(wǎng)頁請求一般包含數(shù)百個memcache讀請求。如一個較火的頁面平均需要從memcache中獲取521個不同的資源。

為了減少數(shù)據(jù)庫等的負擔(dān)，我們準備了緩存集群，每個集群都由數(shù)百臺memcache服務(wù)器組成。資源個體經(jīng)hash后存于不同的memcache服務(wù)器中。因此，web服務(wù)器必須請求多臺memcache服務(wù)器，才能滿足用戶的請求。由此導(dǎo)致在很短的時間里每個web服務(wù)器都要和所有的memcache服務(wù)器溝通。這種所有對所有的連接模式會導(dǎo)致潮涌堵塞（incast congestion）或者某臺服務(wù)器不幸成為瓶頸。實時備份可以緩解這種狀況，但一般又會引起巨大的內(nèi)存浪費。（譯者：為何？）

我們減少延遲的方法主要集中在memcache客戶端，每一個web服務(wù)器都會運行memcache客戶端。這個客戶端提供一系列功能，包括：串行化、壓縮、請求路由、錯誤處理以及請求批處理。客戶端維護著一個對所以可獲得的服務(wù)器的映射，對這個映射表的更新需要通過一個輔助的配置系統(tǒng)。
并行請求和批處理：我們構(gòu)建web應(yīng)用代碼，目的是最小化對于頁面請求回應(yīng)所必要的網(wǎng)絡(luò)往返數(shù)。我們構(gòu)建了有向無環(huán)圖（DAG）用來表示數(shù)據(jù)間的依賴。web服務(wù)器使用DAG來最大化可以并發(fā)讀取的項目數(shù)。平均來說，這些批量請求對于每個請求包含24個主鍵。
客戶端-服務(wù)器通信：memcached服務(wù)器不會直接通信。如果適當，我們將系統(tǒng)的復(fù)雜度嵌入無狀態(tài)的客戶端，而不是memcached服務(wù)器。這極大地簡化了memcached，使我們專注于針對更有限的用例提供高性能。保持客戶端的無狀態(tài)使得我們可以快速迭代開發(fā)，同時也簡化了部署流程。客戶端的邏輯可以提供為兩種組件：可以嵌入應(yīng)用的一個庫，或者做為一個名為mcrouter的獨立的代理程序。這個代理提供memcached服務(wù)器的借口，對不同服務(wù)器之間的請求/回復(fù)進行路由。

客戶端使用UDP和TCP協(xié)議與memcached服務(wù)器通訊。我們依賴UDP來使請求的延遲和開銷縮減。因為UDP是無連接的，web服務(wù)器中的每個線程都被允許直接與memcached服務(wù)器通信，通過mcrouter，不需要創(chuàng)建與維護連接因而減少了開銷。UDP實現(xiàn)了檢測出丟失的或失序接收（通過序列號）的包，并在客戶端將它們作為異常處理。它沒有提供任何試圖恢復(fù)的機制。在我們的基礎(chǔ)架構(gòu)中，我們發(fā)現(xiàn)這個決定很實際。在峰值負載條件下，memcache客戶端觀察到0.25%的請求會被丟棄。其中大約80%是由于延遲或丟失包，其余的是由于失序的交付。客戶端將異常作為緩存不命中處理，但是web服務(wù)器在查詢出數(shù)據(jù)以后，會跳過插入條目到memcached，以便避免對可能超載的網(wǎng)絡(luò)會服務(wù)器增添額外的負載。

圖 3: 經(jīng)過mcrouter以后 UDP, TCP得到的延遲

為了可靠性，客戶端通過同一個web服務(wù)器上運行的mcrouter實例，在TCP協(xié)議之上運行set與delete操作。對我們需要確認狀態(tài)變化（更新和刪除）的操作，TCP避免了UDP實現(xiàn)中增加重試機制的必要。

Web服務(wù)器依賴很高程度的并行性與超量提交來獲得高吞吐量。如果不采用由mcrouter合并的某種形式的連接，打開TCP連接需要的大量內(nèi)存將使得在每個web線程與memcached服務(wù)器之間打開連接變得尤其代價昂貴。通過減少高吞吐量TCP連接對網(wǎng)絡(luò)，CPU和內(nèi)存資源的需求，合并這些連接的方式增強了服務(wù)器的效率。圖3顯示了生產(chǎn)環(huán)境中web服務(wù)器在平均的，中級的，以及百分之95的條件下，在UDP和通過經(jīng)由TCP的mcrouter機制下獲得關(guān)鍵字的延遲。在所有情形，與這些平均值的標準差小于1%。正如數(shù)據(jù)所示，依賴UDP能有20%的延遲縮減來對請求提供服務(wù)。

================= =======================

1 百分之95的頁面抓取的是1,740項目。 2 百分之95情形是每個請求有95個關(guān)鍵字。

Incast擁塞：memcache客戶端實現(xiàn)流量控制機制限制incast擁塞。當一個客戶端請求大量的主鍵時，如果所有應(yīng)答同時達到，那么這些應(yīng)答可以淹沒一些組件，例如：機架和集群交換機。因此客戶端使用滑動窗口機制[11]來控制未處理請求的數(shù)量。當客戶端收到一個應(yīng)答的時候，那么下一個請求就可以發(fā)送了。與TCP的擁塞控制類似，滑動窗口的大小隨著成功的請求緩慢的增長，當一個請求沒有應(yīng)答的時候就縮小。這個窗口應(yīng)用于所有的memcache請求，而不關(guān)心目的地址；然而TCP窗口僅僅應(yīng)用于單獨的數(shù)據(jù)流。

??????????? 圖4：web請求平均等待調(diào)度時間

圖4展示了窗口大小對web服務(wù)器中處于運行態(tài)的用戶請求等待調(diào)度總時間的影響。這些數(shù)據(jù)從一個前端集群的多臺機架采集而來。在每個web服務(wù)器，用戶請求呈現(xiàn)泊松到達過程。參照Little定律[26]，L=λW，假設(shè)輸入請求速率是恒定的（在我們的試驗中就是這樣），在服務(wù)器排隊的請求數(shù)量（L）正比于處理請求的平均時間（W）。web請求的等待調(diào)度時間是web請求在系統(tǒng)中數(shù)量的一個直接指標。當窗口比較小的時候，應(yīng)用將不得不串行地分發(fā)更多組memcache請求，這將會增加web請求的持續(xù)時間。當窗口過大的時候，同時處理的memcache請求的數(shù)量將會引發(fā)incast擁塞。結(jié)果將會是memcache錯誤，應(yīng)用退化到從持久化存儲中取數(shù)據(jù)，這樣將會導(dǎo)致對web請求的處理更緩慢。在這兩個極端之間有一個平衡，處于這個平衡的時候，不必要的延遲將會避免，同時incast擁塞可以被最小化。

3.2 減少負載 ??????????? 我們使用memcache來減少用更耗時的方式讀數(shù)據(jù)的頻率，比如數(shù)據(jù)庫查詢。當期望的數(shù)據(jù)沒有被緩存的時候，web服務(wù)器將會退化到使用更耗時方式。下述子章節(jié)將會描述三種技術(shù)，用來減少負載。
3.2.1 租約（leases）

我們引入了一個稱為租約（leases）的新機制來解決兩個問題：過時設(shè)置（stale sets）和驚群（thundering herds）。當web服務(wù)器更新一個在緩存中不是最新版本的值的時候，一次過時設(shè)置就發(fā)生了。當對memcache的并發(fā)更新重新排序的時候，這種情況是會發(fā)生的。當某個特定的主鍵被大量頻繁的讀寫，那么一次驚群就發(fā)生了。因為寫操作反復(fù)地使最近設(shè)置的值失效，那么讀操作將會默認地使用更耗時的方式。我們的租約機制解決了這兩個問題。

[譯者注：此處的leases與Cary G. Gray的leases不一樣，不要混淆。]

直觀地，當這個客戶端發(fā)生緩存不命中時，memcached實例給客戶端一個租約，將數(shù)據(jù)設(shè)置到緩存中。租約是一個64bit的令牌，與客戶端初始請求的主鍵綁定。當設(shè)值到緩存中時，客戶端提供這個租約令牌。通過這個租約令牌，memcached可以驗證和判斷是否這個數(shù)據(jù)應(yīng)該被存儲，由此仲裁并發(fā)寫操作。如果因為收到了對這個數(shù)據(jù)項的刪除請求，memcached使這個租約令牌失效，那么驗證操作將會失敗。租約阻止過時設(shè)置的方法類似于load-link/store-conditional操作[20]。
??????????? 對租約的輕微改動也可以緩和驚群這個問題。每個memcached服務(wù)器調(diào)節(jié)返回令牌的速率。默認情況，我們配置服務(wù)器對于每個主鍵每10秒鐘返回一個令牌。當在10秒鐘之內(nèi)有請求，一個特殊的通知將會告訴客戶端稍等一下。通常，擁有租約的客戶端將會在幾個毫秒的時間內(nèi)成功設(shè)置數(shù)據(jù)。因此，當?shù)却蛻舳酥卦嚨臅r候，數(shù)據(jù)經(jīng)常已經(jīng)在緩存中了。

為了說明這一點，我們針對容易造成驚群的主鍵集合收集了一個星期的緩存不命中的記錄。如果沒有租約機制，所有的緩存不命中都會造成數(shù)據(jù)庫查詢率的峰值——17K/s。使用租約機制的時候，數(shù)據(jù)庫查詢率的峰值是1.3K/s。因為我們依據(jù)峰值負載準備數(shù)據(jù)庫，所有租約機制提供了顯著的效率增益。

過期值：當使用租約機制的時候，我們可以最小化某些特定用例下的應(yīng)用等待時間。我們可以通過鑒別返回稍微過期數(shù)據(jù)可以接受的情況進一步減少等待時間。當一個主鍵被刪除的時候，對應(yīng)的值轉(zhuǎn)移到一個保存最近刪除項的數(shù)據(jù)結(jié)構(gòu)中，在被清楚之前將會存活很短的時間。一個get請求可能返回一個租約，或者是一個標記為已過時的數(shù)據(jù)。應(yīng)用可以使用過時的數(shù)據(jù)繼續(xù)轉(zhuǎn)發(fā)處理，而不需要等待從數(shù)據(jù)庫讀取的最新數(shù)據(jù)。經(jīng)驗告訴我們因為緩存數(shù)據(jù)趨向于單調(diào)遞增的數(shù)據(jù)庫快照，大部分應(yīng)用可以在對數(shù)據(jù)不做改變的情況下使用過時數(shù)據(jù)。

??????????? 圖5：高抖動鍵集合和低抖動鍵集合的每日和每周的工作集

3.2.2 memcache池
??????????? 使用memcache做為通用的緩存層要求不同的工作負載分享基礎(chǔ)設(shè)施，盡管它們具有不過的接入模式、內(nèi)存占用和服務(wù)質(zhì)量要求。不同應(yīng)用的工作負載可以產(chǎn)生負干擾，這將會導(dǎo)致命中率下降。
??????????? 為了適用這些差異，我們將集群的memcached服務(wù)器分割成獨立的池。我們指定一個池（稱作wildcard）為默認池，針對那些放在wildcard中不合適的主鍵提供另外的池。例如，我們可能為頻繁存取但是緩存不命中不耗時的主鍵分配一個小池。我們也可能為那些不頻繁存取但是緩存不命中異常耗時的主鍵分配一個大池。

圖5展示了兩個不同的項目集合的工作集，一個低抖動，另一個高抖動。工作集通過對每百萬分之一數(shù)據(jù)項采樣所有操作來近似。對于這些數(shù)據(jù)項，我們收集最小、平均和最大數(shù)據(jù)項大小。這些數(shù)據(jù)項大小被加總，然后乘以一百萬來近似工作集。每日和每周工作集的不同指出抖動的總數(shù)。具有不同抖動特征的數(shù)據(jù)項以一種不幸的方式相互影響：那些仍然有價值的低抖動主鍵在那些不再被存取的高抖動主鍵之前被踢出。將這些不同的主鍵放在不同的池中將會阻止這種負干擾，同時使我們可以通過設(shè)置高抖動池的大小來適用緩存不命中的成本。第7章提供了更深入的分析。

[譯者注：工作集定義為在一個特定的時間段內(nèi)一個進程所需要的內(nèi)存]

3.2.3 池內(nèi)的復(fù)制（replication）
??????????? 在某些池內(nèi)，我們使用復(fù)制（replication）來改善延遲和memcached服務(wù)器的效率。當（1）應(yīng)用常規(guī)地同時讀取很多主鍵，（2）整個數(shù)據(jù)集集合可以放到一或兩個memcached服務(wù)器中，（3）請求率非常高，超出了單臺服務(wù)器的處理能力的時候，我們選擇復(fù)制池內(nèi)的一類主鍵。
??????????? 比起進一步劃分主鍵空間，我們更傾向于在實例內(nèi)進行復(fù)制。考慮一個包含100個數(shù)據(jù)項的memcached服務(wù)器，具有對每秒500K請求進行處理的能力。每一個請求查找100個主鍵。在memcached中每個請求查詢100個主鍵與查詢1個主鍵之間開銷的差值是很小的。為了擴展系統(tǒng)來處理1M請求/秒，假如我們增加了第二臺服務(wù)器，將主鍵平均分配到兩臺服務(wù)器上。現(xiàn)在客戶端需要將每個包含100個主鍵的請求分割為兩個并行的包含50個主鍵的請求。結(jié)果兩臺服務(wù)器都仍然不得不處理每秒1M的請求。然后，如果我們復(fù)制所以100個主鍵到兩臺服務(wù)器，一個包含100個主鍵的客戶端請求可以被發(fā)送到任意副本（replica）。這樣將每臺服務(wù)器的負載降到了每秒500K個請求。每一個客戶端依據(jù)自己的IP地址來選擇副本。這種方法需要向所以的副本分發(fā)失效消息來維護一致性。

3.3 故障處理
??????????? 無法從memcache中讀取數(shù)據(jù)將會導(dǎo)致后端服務(wù)負載激增，這會導(dǎo)致進一步的連鎖故障。有兩個尺度的故障我們必須解決：（1）由于網(wǎng)絡(luò)或服務(wù)器故障，少量的主機無法接入，（2）影響到集群內(nèi)相當大比例服務(wù)器的廣泛停機事件。如果整個的集群不得不離線，我們轉(zhuǎn)移用戶的web請求到別的集群，這樣將會有效地遷移memcache所有的負載。
??????????? 對于小范圍的停機，我們依賴一個自動化修復(fù)系統(tǒng)[3]。這些操作不是即時的，需要花費幾分鐘。這么長的持續(xù)時間足夠引發(fā)前面提到的連鎖故障，因此我們引入了一個機制進一步將后端服務(wù)從故障中隔離開來。我們專門準備了少量稱作Gutter的機器來接管少量故障服務(wù)器的責(zé)任。在一個集群中，Gutter的數(shù)量大約為memcached服務(wù)器的1%。

當memcached客戶端對它的get請求收不到回應(yīng)的時候，這個客戶端就假設(shè)服務(wù)器已經(jīng)發(fā)生故障了，然后向特定的Gutter池再次發(fā)送請求。如果第二個請求沒有命中，那么客戶端將會在查詢數(shù)據(jù)庫之后將適當?shù)逆I-值對插入Gutter機器。在Gutter中的條目會很快過期以避免Gutter失效。Gutter以提供稍微過時的數(shù)據(jù)為代價來限制后端服務(wù)的負載。
??????????? 注意，這樣的設(shè)計與客戶端在剩下的memcached服務(wù)器重新分配主鍵的方法不同。由于頻繁存取的主鍵分布不均勻，那樣的方法會有連鎖故障的風(fēng)險。例如，一個單獨的主鍵占服務(wù)器請求的20%。承擔(dān)這個頻繁存取的主鍵的服務(wù)器也會過載。通過將負載分流到閑置的服務(wù)器，我們減少了這樣的風(fēng)險。
??????????? 通常來說，每個失敗的請求都會導(dǎo)致對后端儲存的一次存取，潛在地將會使后端過載。使用Gutter存儲這些結(jié)果，很大部分失敗被轉(zhuǎn)移到對gutter池的存取，因此減少了后端存儲的負載。在實踐中，這個系統(tǒng)每天減少99%的客戶端可見的失敗率，將10%-25%的失敗轉(zhuǎn)化為緩存命中。如果一臺memcached服務(wù)器整個發(fā)生故障，在4分鐘之內(nèi)，gutter池的命中率將會普遍增加到35%，經(jīng)常會接近50%。因此對于由于故障或者小范圍網(wǎng)絡(luò)事故造成的一些memcached服務(wù)器不可達的情況，Gutter將會保護后端存儲免于流量激增。 ?

4 Region之內(nèi)：復(fù)制（Replication）
??????????? 隨著需求的增長，購買更多的web服務(wù)器和memcached服務(wù)器來擴展集群是誘惑人的。但是幼稚地擴展系統(tǒng)并不能解決所有問題。隨著更多的web服務(wù)器加入來處理增長的用戶流量，高請求率的數(shù)據(jù)項只會變的更流行。隨著memcached服務(wù)器的增加，Incast擁塞也會變的更嚴重。因此我們將web服務(wù)器和memcached服務(wù)器分割為多個前端集群。這些集群與包含數(shù)據(jù)庫的存儲集群一起統(tǒng)稱為region。region架構(gòu)同樣也考慮到更小的故障域和易控制的網(wǎng)絡(luò)配置。我們用數(shù)據(jù)的復(fù)制來換取更獨立的故障域、易控制的網(wǎng)絡(luò)配置和incast擁塞的減少。
??????????? 這一章分析了分享同一個存儲集群的多個前端集群的影響。特別地，我們說明了允許數(shù)據(jù)跨集群復(fù)制的影響，以及不允許復(fù)制潛在的內(nèi)存效率。 ?

4.1 region內(nèi)的失效
??????????? 在region中，存儲集群保存數(shù)據(jù)的權(quán)威版本，為了滿足用戶的需求就需要將數(shù)據(jù)復(fù)制到前端集群。存儲集群負責(zé)使緩存數(shù)據(jù)失效來保持前端集群與權(quán)威版本的一致性。做為一個優(yōu)化，當web服務(wù)器修改數(shù)據(jù)后，它也會向所在的集群發(fā)送失效命令，提供針對單用戶請求的讀后寫語義，這樣可以減少本機緩存的存在時間。
??????????? 圖6：失效流水線展示那些需要經(jīng)過守護進程（mcsqueal）刪除的主鍵
??????????? 修改權(quán)威數(shù)據(jù)的SQL語句被改進為包含事務(wù)提交后需要使失效的對應(yīng)的memcache主鍵[7]。我們在所有的數(shù)據(jù)庫上部署了失效守護進程（稱作mcsqueal）。每個守護進程檢查數(shù)據(jù)庫提交的SQL語句，提取任意的刪除命令，并且將刪除命令廣播到region內(nèi)所有的前端集群。圖6展示了這個方法。我們發(fā)現(xiàn)大部分發(fā)出的失效命令并不會造成刪除數(shù)據(jù)的操作，實際上，所有發(fā)出的刪除命令只有4%導(dǎo)致實際的緩存數(shù)據(jù)失效。 ?

減少發(fā)包率：如果mcsqueal可以直接聯(lián)系memcached服務(wù)，那么從后端集群到前端集群的發(fā)包率將會高的無法接受。有很多數(shù)據(jù)庫和很多memcached服務(wù)器跨集群邊界通信造成了發(fā)包率的問題。失效守護進程批量處理刪除操作，使用很少的包把操作發(fā)送到每個前段集群運行著mcrouter的指定服務(wù)器。然后mcrouter就從每個批量包中分解出單獨的刪除操作，將失效命令路由到所在前端集群正確的memcached服務(wù)器。通過統(tǒng)計每個包中刪除命令的中位數(shù)可見批處理具有18倍的性能提升。
通過web服務(wù)器發(fā)送失效命令：通過web服務(wù)器廣播失效命令到所有前端服務(wù)器更簡單。很不幸，這個方法存在兩個問題。第一個，因為web服務(wù)器在批處理無效命令時沒有mcsqueal有效率，所以它具有更高的包成本。第二個，當系統(tǒng)性的無效問題出現(xiàn)時，這種方法會無能為力，比如由于配置錯誤造成的刪除命令錯誤路由。過去，這經(jīng)常需要動態(tài)重啟整個memcache基礎(chǔ)設(shè)施，這樣一個緩慢的、破壞性的進程是我們一直想避免的。相反，將失效命令嵌入SQL語句允許mcsqueal簡單的重新執(zhí)行可能已經(jīng)丟掉的或者錯誤路由的失效命令，因為數(shù)據(jù)庫提交存儲有可靠的日志。

表1：集群復(fù)制或region復(fù)制的決定性因素

[譯者注：動態(tài)重啟（rolling restart）是賽車比賽中的一個術(shù)語。看看F1比賽就會有個直觀的概念，比賽的時候經(jīng)常會出現(xiàn)安全車領(lǐng)著賽車跑兩圈，當安全車離開后出現(xiàn)綠旗，這就是一次rolling start]

4.2 Region池
??????????? 每個集群依照混合的用戶請求獨立地緩存數(shù)據(jù)。如果用戶請求被隨機的路由到所有可獲得的前端集群，那么所有前端服務(wù)器緩存的數(shù)據(jù)將會大致上一樣。這就允許我們離線維護某個集群，而不會導(dǎo)致緩存命中率下降。過度復(fù)制數(shù)據(jù)會使內(nèi)存沒有效率，特別是對很大的、很少存取的數(shù)據(jù)項。通過使多個前端集群分享同一個memcached服務(wù)器集合，我們就可以減少副本的數(shù)量。我們稱此為region池。
??????????? 跨集群邊界通信會導(dǎo)致更大的延遲。另外，我們的集群間可獲得帶寬比集群內(nèi)的少40%。復(fù)制用更多的memcached服務(wù)器換取更少的集群間帶寬，低延遲和更好的容錯。對于某一些數(shù)據(jù)，放棄副本的好處，每個region一個拷貝，從成本上來說更有效率。擴展memcache的一個主要挑戰(zhàn)是決定某主鍵是應(yīng)該跨前端集群復(fù)制，還是每個region一個副本。當region池發(fā)生故障時，Gutter也會被使用。

表1總結(jié)了我們應(yīng)用中具有巨大價值的兩類項目。我們將B類型的數(shù)據(jù)移到region池，對于A類型的不做改變。注意，客戶端存取B類型數(shù)據(jù)的頻率比A類型數(shù)據(jù)低一個數(shù)量級。B類型數(shù)據(jù)的低存取率使它成為region池的主要候選者，因為這樣的數(shù)據(jù)不會對集群間帶寬造成不利的影響。B類型數(shù)據(jù)也會占有每個集群wildcard池25%的空間，所以區(qū)域化提供了顯著的存儲效率。然而在A類型的數(shù)據(jù)項的大小是B類型的兩倍，而且存取更頻繁，所以從region的角度考慮，不會將它們放在region池中。目前將數(shù)據(jù)遷移到region池的依據(jù)是基于存取率、數(shù)據(jù)大小和存取用戶數(shù)的人工的啟發(fā)式方法。

4.3 冷集群熱身
??????????? 由于存在的集群發(fā)生故障或者進行定期的維護，我們增加新的集群上線，此時緩存命中率會很低，這樣會削弱隔離后端服務(wù)的能力。一個稱作冷集群熱身（Cold Cluster Warmup）的系統(tǒng)可以緩和這種情況，這個系統(tǒng)使“冷集群”（也就是具有空緩存的前端集群）中的客戶端從“熱集群”（也就是具有正常緩存命中率的集群）中檢索數(shù)據(jù)而不是從持久化存儲。這利用到了前面提到的跨前端集群的數(shù)據(jù)復(fù)制。使用這個系統(tǒng)可以使冷集群在幾個小時恢復(fù)到滿負載工作能力而不是幾天。

必須注意避免由于競爭條件引發(fā)的不一致。例如，如果冷集群中的一個客戶端對數(shù)據(jù)庫做了更新，另外一個客戶端在熱集群收到失效命令之前檢索到過時數(shù)據(jù)，這個數(shù)據(jù)項在冷集群中將會不一致。memcached的刪除命令支持非零的拖延時間，也就是在指定的拖延時間內(nèi)拒絕添加操作。默認情況下，冷集群中所有的刪除命令都有兩秒鐘的拖延時間。當在冷集群中發(fā)生緩存不命中時，客戶端向熱集群重新發(fā)送請求，然后將結(jié)果添加到冷集群中。如果添加失敗就表明數(shù)據(jù)庫中有更新的數(shù)據(jù)，因此客戶端將會重新從數(shù)據(jù)庫讀數(shù)據(jù)。刪除命令延遲兩秒鐘以上在理論上來說也是有可能的，但是對于大部分的情況并不會超過兩秒鐘。冷集群熱身運營上的效益遠遠超過少數(shù)緩存不一致所帶來的成本。一旦冷集群的命中率趨于穩(wěn)定，我們就將冷集群熱身系統(tǒng)關(guān)掉，同時效益也就減少了。

5 跨地區(qū)：一致性

將數(shù)據(jù)中心分布到廣泛的地理位置具有很多優(yōu)勢。第一，將web服務(wù)器靠近終端用戶可以極大地較少延遲。第二，地理位置多元化可以緩解自然災(zāi)害和大規(guī)模電力故障的影響。第三，新的位置可以提供更便宜的電力和其它經(jīng)濟上的誘因。我們通過部署多個region來獲得這些優(yōu)勢。每個region包含一個存儲集群和多個前端集群。我們指定一個region持有主數(shù)據(jù)庫，別的region包含只讀的副本；我們依賴MySQL的復(fù)制機制來保持副本數(shù)據(jù)庫與主數(shù)據(jù)庫的同步。基于這樣的設(shè)計，web服務(wù)器無論訪問本地memcached服務(wù)器還是本地數(shù)據(jù)庫副本的延遲都很低。當擴展到多region的時候，維護memcache和持久化存儲的數(shù)據(jù)一致性成了主要的技術(shù)挑戰(zhàn)。這些挑戰(zhàn)源于一個問題：副本數(shù)據(jù)庫可能滯后于主數(shù)據(jù)庫。

在一致性和性能平衡的廣泛范圍上，我們的系統(tǒng)僅僅表示一個點。一致性模型已經(jīng)演進了很多年來滿足站點擴展的需求。在實踐上一致性模型是可以構(gòu)建的，并且不會犧牲高性能的需求。系統(tǒng)管理的大容量數(shù)據(jù)隱含著任何增加網(wǎng)絡(luò)和存儲需求的細小改動都有重大的成本。大部分提供嚴格語義的想法都很少走出設(shè)計階段，因為它們實在是過分的昂貴。與專門針對存在的用例而定制的系統(tǒng)不同，memcache和Facebook是一起開發(fā)的。這就允許應(yīng)用工程師和系統(tǒng)工程師可以一起工作來設(shè)計一個模型，這個模型對于應(yīng)用工程師來說是易于理解的、高效的，而且足夠的簡單來實現(xiàn)可靠的擴展。我們提供了盡力而為的最終一致性，但是強調(diào)性能和可用性。因此在實踐上這個系統(tǒng)工作的非常好，而且我們找到了一個可以接受的平衡點。

從主region寫：前面我們提到在我們的系統(tǒng)中是通過存儲集群的守護進程來實現(xiàn)數(shù)據(jù)失效的，這樣的設(shè)計對多region架構(gòu)的設(shè)計具有重要的影響。特別的，這樣的設(shè)計可以避免一個競爭情況，也就是在數(shù)據(jù)從主region復(fù)制過來之前失效命令先到達了。考慮一下這種情況，主region中的一個web服務(wù)器已經(jīng)完成對數(shù)據(jù)庫的修改，尋求使現(xiàn)在過時的數(shù)據(jù)失效。在主region中發(fā)送失效命令是安全的。然而，讓副本region中的web服務(wù)器發(fā)送失效命令可能是不成熟的，因為對主數(shù)據(jù)庫的改動可能還沒有傳播到副本數(shù)據(jù)庫。接下來對副本region的數(shù)據(jù)查詢將會與數(shù)據(jù)庫復(fù)制產(chǎn)生競爭，因此增加了將過時數(shù)據(jù)設(shè)置到memcache中的概率。歷史上，在擴展到多個region之后，我們實現(xiàn)了mcsqueal。

從非主region寫：現(xiàn)在考慮當復(fù)制滯后非常大的時候，用戶從非主region更新數(shù)據(jù)。如果他最近的改動丟失了，那么下一個請求將會導(dǎo)致混亂。之后當復(fù)制流完成之后才允許從副本數(shù)據(jù)庫讀取數(shù)據(jù)并緩存。如果沒有這個保障，后續(xù)請求將會導(dǎo)致副本中的過時數(shù)據(jù)被讀取并且緩存。
??????????? 我們使用遠程標記（remote marker）機制來最小化讀取過時數(shù)據(jù)的概率。出現(xiàn)標記就表明本地副本數(shù)據(jù)庫中的數(shù)據(jù)可能是過時的，所以查詢應(yīng)該重定向到主region。當web服務(wù)器想要更新主鍵為k的數(shù)據(jù)，那么服務(wù)器（1）在region中設(shè)置遠程標記 r_k，（2）向主數(shù)據(jù)庫執(zhí)行寫操作，并且在SQL語句中嵌入應(yīng)該失效的k和 r_k，（3）在本集群刪除k。對于主鍵k的后續(xù)請求，web服務(wù)器找不到緩存數(shù)據(jù)，然后就檢查 r_k是否存在，如果存在就將請求定向到主region，否則定向到本地region。在這種情況下，我們用緩存不命中時附加的延遲來換取讀取過時數(shù)據(jù)概率的下降。 ?

我們通過使用region池來實現(xiàn)遠程標記。注意，當對于同一個主鍵并發(fā)修改的時候，一個操作可能刪除遠程標記，而這個標記應(yīng)該為另外一個正在執(zhí)行的操作保留，如果出現(xiàn)這種情況，我們的機制就可能返回過時的信息。有一點是需要特別說明的，我們對遠程標記memcache的使用以一種微妙的方式違反了緩存結(jié)果。做為緩存，刪除或移除主鍵都是安全的；它可能會引起更多的數(shù)據(jù)庫負載，但是不會削弱一致性。相反，遠程標記的出現(xiàn)可以幫助區(qū)分是否非主數(shù)據(jù)庫擁有過時數(shù)據(jù)。在實踐上，我們發(fā)現(xiàn)移除遠程標記和并發(fā)修改的情況都很少。
運行上的考慮：跨region通信是非常耗時的，因為數(shù)據(jù)不得不穿過很大的地理距離（比如穿過合眾國大陸）。通過分享數(shù)據(jù)庫復(fù)制刪除流的通信信道，我們在低帶寬連接情況下獲得了網(wǎng)絡(luò)效率。
??????????? 上述4.1章提到的管理刪除的系統(tǒng)也部署在了副本region，通過副本數(shù)據(jù)庫廣播刪除命令到memcached服務(wù)器。當下流組件沒有反應(yīng)時，數(shù)據(jù)庫和mcrouter暫存刪除命令。任何組件的故障和延遲都會導(dǎo)致讀取過時數(shù)據(jù)概率的增加。一旦下流組件重新可獲得了，暫存的刪除命令將會重新發(fā)送。當發(fā)現(xiàn)問題時，代替的方案是讓集群下線或者是使前端集群的數(shù)據(jù)失效。這些方法比起所獲得的工作負荷上的好處將會導(dǎo)致更多的混亂。 ?

6 單個服務(wù)器的提升

多對多的通信模式隱含著單獨的服務(wù)器將會成為集群的瓶頸。這章將會講述性能調(diào)優(yōu)和memcached內(nèi)存效率的提高，這有利于集群更好的擴展。提升單個服務(wù)器緩存的性能是一個活躍的研究領(lǐng)域[9,10,28,25]。

6.1 性能調(diào)優(yōu)

我們開始使用具有固定大小哈希表的單線程memcached。第一批主要的優(yōu)化是：（1）允許哈希表自動擴展來避免查找時間漂移到O(n)，（2）通過一個全局鎖來保護多數(shù)據(jù)結(jié)構(gòu)使得服務(wù)器多線程化，（3）賦予每個線程獨立的UDP端口來減少發(fā)送副本和稍后傳播中斷處理開銷的爭用。前兩個優(yōu)化都貢獻給了開源社區(qū)。下述章節(jié)將會探索還沒在開源版本出現(xiàn)的進一步優(yōu)化。

我們的實驗主機擁有一顆2.67GHz（12核、12超線程）的Intel Xeon CPU（X5650），一個Intel 82574L千兆以太網(wǎng)控制器和12GB內(nèi)存。生產(chǎn)服務(wù)器具有更多的內(nèi)存。更多的細節(jié)之前已經(jīng)公開過[4]。性能測試設(shè)備包含15個生成memcache流量的客戶端和一臺具有24線程的memcached服務(wù)器。客戶端和服務(wù)器放在同一個機架，之間通過千兆以太網(wǎng)連接。這些測試測量兩分鐘持續(xù)負載memcached反應(yīng)的延遲。

[譯者注：X5650好像是6核的]
獲取的性能：我們首先研究將原有的多線程單鎖的實現(xiàn)替換為細粒度鎖的效益。在發(fā)送包含10個主鍵的memcached請求的之前，我們預(yù)先填充了擁有32byte值的緩存數(shù)據(jù)，然后我們測量命中的性能。圖7展示了對不同版本的memcached持續(xù)的亞毫秒級平均返回時間的最大請求率。第一組柱狀圖是實現(xiàn)細粒度鎖之前的memcached，第二組是我們當前的memcached，最后一組是開源版本1.4.10，這個版本獨立實現(xiàn)了一個我們的鎖策略的更粗粒度的版本。

使用細粒度的鎖使得請求命中的峰值從每秒600K到達了1.8M提升了3倍。不命中的性能也從每秒2.7M提升到了4.5M。因為返回值需要構(gòu)建和傳輸，而不命中對于整個多請求僅需要一個表明所有主鍵不命中的靜態(tài)回應(yīng)（END），所以命中的情況更耗時。
??????????? 我們也研究了使用UDP代替TCP的性能影響。圖8展示了對于單主鍵獲取和10個主鍵獲取平均持續(xù)延遲小于一毫秒的請求峰值。我們發(fā)現(xiàn)UDP實現(xiàn)的性能在單主鍵獲取情況下超出TCP實現(xiàn)13%，在10主鍵獲取的情況下超出8%。

圖7：對不同memcached版本多獲取命中和不命中的性能比較

圖8：對TCP和UDP單主鍵請求和10主鍵請求獲取命中的性能比較

因為多主鍵獲取在單個請求比單主鍵獲取多打包了很多數(shù)據(jù)，所以它們使用了更少的包完成了同樣的事情。圖8展示了10個主鍵獲取比單主鍵獲取有接近4倍的性能提升。

6.2 適應(yīng)性的slab分配器

memcached使用一個slab分配器來管理內(nèi)存。這個分配器將內(nèi)存組織為slab類，每類包含預(yù)分配的均勻大小的內(nèi)存塊。memcached將數(shù)據(jù)項存儲到可以適應(yīng)數(shù)據(jù)項元數(shù)據(jù)、鍵和值大小的最小可能性的slab類。slab類從64byte開始，以1.07為因子指數(shù)性增加到1MB，以4byte對齊³。每個slab類維護一個可獲得內(nèi)存塊的空閑列表，當它的空閑列表是空的，那么就從1MB slab中請求更多內(nèi)存。一旦memcached服務(wù)器再也不能分配空閑內(nèi)存，通過移除slab類中最近最少使用（LRU）的數(shù)據(jù)項來存儲新的數(shù)據(jù)項。當工作負載改變時，原有分配給每個slab類的內(nèi)存可能不再足夠，這樣將會導(dǎo)致低命中率。

================= ======================= 3 對頁取數(shù)據(jù)的量位于第95百分位的是1740個數(shù)據(jù)項。這個擴展的因子確保我們同時擁有64byte和128byte，這樣更有利于利用硬件緩存線。

我們實現(xiàn)了一個適應(yīng)性的分配器，這個分配器將會周期性的重新平衡slab分配來適應(yīng)當前的工作負載。如果slab類正在移除數(shù)據(jù)項，而且如果下一個將要被移除的數(shù)據(jù)項比其它slab類中的最近最少使用的數(shù)據(jù)項的最近使用時間至少近20%，那么就說明這個slab類需要更多內(nèi)存。如果找到了一個這樣的slab類，那么就將存儲最近最少使用數(shù)據(jù)項的slab釋放，然后轉(zhuǎn)移到needy類。注意，開源社區(qū)已經(jīng)獨立實現(xiàn)了一個類似的平衡跨slab類移除率的分配器，然而我們的算法關(guān)注平衡所有類中最久數(shù)據(jù)項的時長。平衡時長比調(diào)整移除率對整臺服務(wù)器單個全局最近最少使用（LRU）移除策略提供了更好的近似，而且調(diào)整移除率深受接入模式的影響。

6.3 臨時條目的緩存

因為memcached支持過期時間，條目在它們過期之后仍可以駐留在內(nèi)存中。當條目被請求時或者當它們到達LRU的尾端時，Memcached會通過檢查過期時間來延時剔除這些條目。盡管在一般情況下很有效，但是這種模式允許那些偶爾活躍一下的短期鍵值占據(jù)內(nèi)存空間，直到它們到達LRU的尾部。

所以我們引入一種混合模式，對多數(shù)鍵值使用延時剔除，而對過期的短期鍵值則立即剔除。我們根據(jù)短期條目的過期時間把它們放入一個由鏈接表構(gòu)成的環(huán)形緩存區(qū)（花費幾秒編入索引直到過期） – 我們稱之為臨時條目緩存區(qū)。每一秒鐘，該緩存的頭部數(shù)據(jù)格里的所有條目都會被剔除，然后頭部向前移動一格。當我們給一個頻繁使用的鍵值集合（它們對應(yīng)條目的壽命很短）設(shè)置一個短超期時間后，該鍵值集合使用的memcache緩沖池的比例從6%下降到0.3%，而沒有影響到命中率。

6.4 軟件升級

升級、bug修復(fù)、臨時診斷或性能測試都需要頻繁的軟件變更。一個memcached服務(wù)器能夠在幾小時內(nèi)達到 90% 的命中率峰值。接下來，可能會耗費12小時來進行memcached服務(wù)器升級，這將要求我們謹慎管理數(shù)據(jù)庫負載。我們修改了memcached，使用 System V 共享內(nèi)存區(qū)來存儲緩存值和主數(shù)據(jù)結(jié)構(gòu)，以便在軟件升級過程中數(shù)據(jù)仍能夠保持可用，進而最小化損失。

圖 9: 不同數(shù)量memcached服務(wù)器的訪問數(shù)累積分布圖

7 memcache工作負載

現(xiàn)在我們用從生產(chǎn)環(huán)境中運行服務(wù)器上所獲得的數(shù)據(jù)來描述memcache的負載。

7.1 web服務(wù)器上的測量

我們收集了小比例用戶請求的所有memcache操作，然后討論了扇出（fanout）、響應(yīng)大小和我們工作負載的延遲特征。
扇出：圖9展示了當web服務(wù)器回應(yīng)一個頁面請求時需要聯(lián)系的memcahced服務(wù)器數(shù)量的分布。由圖可見，56%的頁面請求聯(lián)系少于20臺memcached服務(wù)器。按照傳輸量來說，用戶請求傾向于請求小數(shù)量的緩存數(shù)據(jù)。然而這個分布存在一個長尾。這張圖也展示了對于流行頁面的請求分布，這樣的頁面可以更好的展示出多對多的通信模式。大部分這樣的請求將會接入超過100臺獨立的服務(wù)器；接入幾百臺memcached服務(wù)器也不是少數(shù)。
響應(yīng)大小：圖10展示了對memcache請求的響應(yīng)大小。中位數(shù)（135byte）與平均數(shù)（954byte）之間的差值隱含著緩存項的大小存在很大差異。另外，在近似200byte和600byte處有三個不同的峰值。大的數(shù)據(jù)項傾向于存儲數(shù)據(jù)列表，而小的數(shù)據(jù)項傾向于存儲單個內(nèi)容塊。

延遲：我們測量從memcache請求數(shù)據(jù)的往返延遲，這個延遲包含了請求路由和接收回復(fù)的成本、網(wǎng)絡(luò)傳輸時間和反序列化和解壓縮的成本。通過7天的統(tǒng)計，請求延遲的中位數(shù)是333微秒，位于第75百分位的是475微秒，位于第95百分位的是1.135毫秒。空閑web服務(wù)器端到端延遲的中位數(shù)是178微秒，位于第75百分位的是219微秒，位于第95百分位的是374微秒。在第95百分位上延遲的巨大差異是由處理數(shù)據(jù)量大的回應(yīng)和等待可運行線程調(diào)度引起的，這些在3.1章已經(jīng)討論過了。

圖10：讀取數(shù)據(jù)大小的累積分布

7.2 池的統(tǒng)計

現(xiàn)在我們討論四個memcache池的測量。這些池分別是wildcard（默認池），app（專門設(shè)定給特定應(yīng)用的池），給存取頻繁的數(shù)據(jù)的replicated pool，給很少存取的數(shù)據(jù)的regional pool。在每個池中，我們每四分鐘收集一次平均的統(tǒng)計，表2展示了一個月的統(tǒng)計周期的最大平均值。這些數(shù)據(jù)近似于那些池的峰值負載。這張表顯示了對于不同的池，get、set和delete操作的頻率存在很大差異。表3展示了每個池響應(yīng)大小的分布。這些不同的特征激發(fā)了我們分隔不同工作負載的欲望。
??????????? 就像在3.2.3章討論過的那樣，我們在池內(nèi)復(fù)制數(shù)據(jù)，使用批處理的優(yōu)勢來處理高請求率。我們觀察到，replicated pool具有最高的get操作率（差不多是第二高的2.7倍），最高的字節(jié)比包的比率，盡管該池有最小的數(shù)據(jù)項大小。這些觀察數(shù)據(jù)與我們設(shè)計的期望一致，我們就是想利用復(fù)制和批處理來實現(xiàn)更好的性能。在app池，更高的數(shù)據(jù)抖動自然而然將會導(dǎo)致更高的不命中率。這個池傾向于將數(shù)據(jù)保存幾個小時，然后就會被新的數(shù)據(jù)踢出。在regional pool中的數(shù)據(jù)傾向于是較大的而且不頻繁被存取的，就像表中的的請求率和數(shù)據(jù)大小分布展示的那樣。

7.3失效延時

我們發(fā)現(xiàn)，在確定暴露過期數(shù)據(jù)的概率上，失效的及時性是一個關(guān)鍵因素。為了監(jiān)控該生命值，我們從百萬次刪除操作中取樣一次并記錄刪除命令發(fā)出的時間。隨后，我們定期地為該樣本查詢所有前端集群中memcache的內(nèi)容，如果刪除命令將一個字段設(shè)定為無效時，該字段仍然緩存，則記錄一個錯誤。

圖11:刪除的管線的延時

在圖11中，我們使用這種監(jiān)控機制來統(tǒng)計30天的失效延遲。我們將數(shù)據(jù)分為兩組：（1）刪除操作由主region中的web服務(wù)器發(fā)起，并被發(fā)送到主region中的一個memcached服務(wù)器，（2）刪除操作從副本region發(fā)起，并且發(fā)送到另外一個副本region。由統(tǒng)計數(shù)據(jù)可以見，當參數(shù)操作的發(fā)起地和目的地都是在主region的時候，成功率非常的高，一秒鐘內(nèi)就可以達到四個九的可靠性，一小時之后就可以達到五個九。當刪除操作的發(fā)起地和目的地都不在主region的時候，一秒鐘內(nèi)的可靠性下降到了三個九，十分鐘內(nèi)才達到四個九。按照我們的經(jīng)驗，當幾秒鐘之后失效操作不成功，最可能的原因是第一次嘗試失敗，接下來的重試將會解決這個問題。

8 相關(guān)工作

一些其他的大型網(wǎng)站已經(jīng)意識到key-value存儲的應(yīng)用。DeCandia 等[12]構(gòu)建了高可用的key-value存儲系統(tǒng)（Dynamo），已經(jīng)亞馬遜網(wǎng)站應(yīng)用服務(wù)中大量使用。相比較，Dynamo主要著眼于優(yōu)化高負荷狀況下的寫操作，而我們系統(tǒng)的負荷主要是大量的讀操作。類似的有，LinkedIn 使用Voldemort[5],由Dynamo衍生而出。其他被大量使用的key-value存儲方案包括Github，digg和Blizzard使用Redis[6]；Twitter[33]和Zynga使用memcahed。Lakshmanet等[1]開發(fā)了Cassandra,一個基于模式的分布式key-value數(shù)據(jù)庫。然而我們更趨向于使用和擴展memcached,主要是由于其簡單的設(shè)計。

我們的工作是擴展memecached使其在分布式數(shù)據(jù)架構(gòu)下工作。Gribble等[19]構(gòu)建了一個早期版本的key-value存儲系統(tǒng)用于Internet擴展服務(wù)。Ousterhout等[29]也構(gòu)建了一個大規(guī)模內(nèi)存key-value存儲系統(tǒng)。與這些方案不同，memcache不保證持久性。我們利用其它的系統(tǒng)來解決數(shù)據(jù)存儲的持久性問題。

????????????

表2：各類型的平均超過7天的memcache程序池流量圖

表 3: 各類型程序池關(guān)鍵詞大小分布（k）

Ports等[31]提供了一個用于管理事任務(wù)數(shù)據(jù)庫查詢結(jié)果緩存的類庫。我們需要的是一個更靈活的緩存措略。我們利用最近和過期讀優(yōu)先措略用來研究高性能系統(tǒng)下緩存一致性和讀操作。Ghandeharizadeh和Yap等研究也提出了一個公式，解決基于時間標記而不是確定的版本號過期集合的問題。

雖然軟路由易于定制和編程，但是相比較硬路由其效率更低。Dobresuet等[13]利用多處理器、多存儲控制器，多隊列網(wǎng)絡(luò)接口和批處理的方式在通用服務(wù)器上研究了這些問題。利用這些技術(shù)實現(xiàn)微路由來保持進一步的工作。Twitter也獨立開發(fā)了一個類似微路由的memcache代理[32]。

在Coda[35]中，Satyanarayanan等展示了如何把由于不連貫的操作導(dǎo)致的數(shù)據(jù)集分歧恢復(fù)一致。Glendenninget等[17] 利用杠桿作用Paxos公式[24]和加權(quán)因子[16]構(gòu)建了Scatter,一個線性語義攪動的非貢獻哈希表。

TAO[37]是facebook 的另一個嚴重依賴緩存的系統(tǒng)，主要用戶保證大數(shù)據(jù)量查詢時能保持低延遲。TAO和memcache有兩方面的重大不同。（1），TAO由一個圖形模型實現(xiàn)，在模型中每一個節(jié)點由一個固定長度的持久標識符（64位整數(shù)）來標識。（2）TAO 有一個編碼規(guī)范，把它的圖形模型映射到持久存儲，并且對持久層負責(zé)。其他大量的組件，比如我們的客戶類庫和微路由，都可以在兩個系統(tǒng)中通用。

9 總結(jié)

在這篇文章里，我們展示了使用基于memcached的技術(shù)來滿足Facebook不斷增長的需求. 文中討論的很多權(quán)衡都不是很基礎(chǔ), 但是卻是在優(yōu)化線上系統(tǒng)性能時真實遇到的，而這個線上系統(tǒng)的規(guī)模還在持續(xù)部署新產(chǎn)品的過程中不停的擴大. 在建設(shè)、維護、擴容我們的系統(tǒng)時，我們學(xué)到了一下的經(jīng)驗。(1) 分離的緩存和持久化存儲系統(tǒng)使我們可以對他們進行單獨的度量. (2) 監(jiān)視、報錯、可選的特性和性能一樣重要. (3) 管理有狀態(tài)的組件要比管理無狀態(tài)組件復(fù)雜的多. 所以將邏輯保存在無狀態(tài)的客戶端里會對特性的反復(fù)調(diào)用有幫助并且使系統(tǒng)的分裂最小化. (4) 系統(tǒng)要可以逐步的增加或減少新功能，即使這會導(dǎo)致系統(tǒng)的功能集臨時的異構(gòu). (5) 簡潔至關(guān)重要.

總結(jié)

非常感謝Philippe Ajoux, Nathan Bron-son, Mark Drayton, David Fetterman, Alex Gartrell, Andrii Grynenko, Robert Johnson, Sanjeev Kumar, Anton Likhtarov, Mark Marchukov, Scott Marlette, Ben Maurer, David Meisner, Konrad Michels, Andrew Pope, Jeff Rothschild, Jason Sobel, and Yee Jiun Song ，他們提供的杰出貢獻. 我們同時非常感謝那些不知名的評論者，以及我們的指導(dǎo) Michael Piatek, Tor M. Aamodt, Remzi H. Arpaci-Dusseau, and Tayler Hetherington ，在我們撰寫這篇文章的時候他們給了我們很多寶貴的反饋. 最后我們要感謝facebook的工程師同事們，他們給出了很多意見，bug報告，并且支撐memcache成為今天這個樣子。

-------------------------------------------page 12-------------------------------------------

References ??????????? [1] Apache Cassandra. http://cassandra.apache.org/. ??????????? [2] Couchbase. http://www.couchbase.com/. ??????????? [3] Making Facebook Self-Healing. https://www.facebook.com/note.php?note_id=10150275248698920. ??????????? [4] Open Compute Project. http://www.opencompute.org. ??????????? [5] Project Voldemort. http://project-voldemort.com/. ??????????? [6] Redis. http://redis.io/. ??????????? [7] Scaling Out. https://www.facebook.com/note.php?note_id=23844338919. ??????????? [8] ATIKOGLU, B., XU,Y.,FRACHTENBERG, E., JIANG, S., AND PALECZNY, M. Workload analysis of a large-scale key-value store. ACM SIGMETRICS Performance Evaluation Review 40, 1 (June 2012), 53–64. ??????????? [9] BEREZECKI, M., FRACHTENBERG, E., PALECZNY, M., AND STEELE, K. Power and performance evaluation of memcached on the tilepro64 architecture.Sustainable Computing: Informat-ics and Systems 2, 2 (June 2012), 81 – 90. ??????????? [10] BOYD-WICKIZER, S., CLEMENTS, A. T., MAO, Y., PESTEREV, A., KAASHOEK,M.F.,MORRIS, R., AND ZELDOVICH, N. An analysis of linux scalability to many cores. In Proceedings of the 9th USENIX Symposium on Operating Systems Design & Implementation(2010), pp. 1–8. ??????????? [11] CERF, V. G., ANDKAHN, R. E. A protocol for packet network intercommunication. ACM SIGCOMM Compututer Communi-cation Review 35, 2 (Apr. 2005), 71–82. ??????????? [12] DECANDIA, G., HASTORUN, D., JAMPANI, M., KAKULAP-ATI, G., LAKSHMAN, A., PILCHIN, A., SIVASUBRAMANIAN,S., VOSSHALL, P., ANDVOGELS, W. Dynamo: amazon’s highly available key-value store.ACM SIGOPS Operating Sys-tems Review 41, 6 (Dec. 2007), 205–220. ??????????? [13] FALL, K., IANNACCONE, G., MANESH, M., RATNASAMY, S., ARGYRAKI, K., DOBRESCU, M., ANDEGI, N. Routebricks: enabling general purpose network infrastructure.ACM SIGOPS Operating Systems Review 45, 1 (Feb. 2011), 112–125. ??????????? [14] FITZPATRICK, B. Distributed caching with memcached. Linux Journal 2004, 124 (Aug. 2004), 5. ??????????? [15] GHANDEHARIZADEH, S., ANDYAP, J. Gumball: a race con-dition prevention technique for cache augmented sql database management systems. In Proceedings of the 2nd ACM SIGMOD Workshop on Databases and Social Networks(2012), pp. 1–6. ??????????? [16] GIFFORD, D. K. Weighted voting for replicated data. In Pro-ceedings of the 7th ACM Symposium on Operating Systems Prin-ciples(1979), pp. 150–162. ??????????? [17] GLENDENNING, L., BESCHASTNIKH, I., KRISHNAMURTHY, A.,ANDANDERSON, T. Scalable consistency in Scatter. In Proceedings of the 23rd ACM Symposium on Operating Systems Principles(2011), pp. 15–28. ??????????? [18] GRAY, C., ANDCHERITON, D. Leases: An efficient fault-tolerant mechanism for distributed file cache consistency. ACM SIGOPS Operating Systems Review 23, 5 (Nov. 1989), 202–210. ??????????? [19] GRIBBLE, S. D., BREWER, E. A., HELLERSTEIN, J. M., AND CULLER, D. Scalable, distributed data structures for internet service construction. InProceedings of the 4th USENIX Sym-posium on Operating Systems Design & Implementation(2000), pp. 319–332. ??????????? [20] HEINRICH, J. MIPS R4000 Microprocessor User’s Manual. MIPS technologies, 1994. ??????????? [21] HERLIHY, M. P., ANDWING, J. M. Linearizability: a correct-ness condition for concurrent objects. ACM Transactions on Programming Languages and Systems 12, 3 (July 1990), 463–492. ??????????? [22] KARGER, D., LEHMAN, E., LEIGHTON,T.,PANIGRAHY, R., LEVINE, M., ANDLEWIN, D. Consistent Hashing and Random trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web. In Proceedings of the 29th annual ACM Symposium on Theory of Computing(1997), pp. 654–663. ??????????? [23] KEETON, K., MORREY, III, C. B., SOULES, C. A., AND VEITCH, A. Lazybase: freshness vs. performance in informa-tion management. ACM SIGOPS Operating Systems Review 44,1 (Dec. 2010), 15–19. ??????????? [24] LAMPORT, L. The part-time parliament. ACM Transactions on Computer Systems 16, 2 (May 1998), 133–169. ??????????? [25] LIM, H., FAN, B., ANDERSEN, D. G., ANDKAMINSKY, M. Silt: a memory-efficient, high-performance key-value store. In Proceedings of the 23rd ACM Symposium on Operating Systems Principles(2011), pp. 1–13. ??????????? [26] LITTLE, J., ANDGRAVES, S. Little’s law. Building Intuition (2008), 81–100. ??????????? [27] LLOYD,W.,FREEDMAN, M., KAMINSKY, M., ANDANDER-SEN, D. Don’t settle for eventual: scalable causal consistency for wide-area storage with COPS. InProceedings of the 23rd ACM Symposium on Operating Systems Principles(2011), pp. 401–416. ??????????? [28] METREVELI, Z., ZELDOVICH, N., AND KAASHOEK, M. Cphash: A cache-partitioned hash table. In Proceedings of the 17th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming(2012), pp. 319–320. ??????????? [29] OUSTERHOUT, J., AGRAWAL,P.,ERICKSON, D., KOZYRAKIS, C., LEVERICH, J., MAZI` ERES, D., MI-TRA, S., NARAYANAN, A., ONGARO, D., PARULKAR, G., ROSENBLUM, M., RUMBLE, S. M., STRATMANN, E., AND STUTSMAN, R. The case for ramcloud. Communications of the ACM 54, 7 (July 2011), 121–130. ??????????? [30] PHANISHAYEE, A., KREVAT, E., VASUDEVAN,V.,ANDER-SEN, D. G., GANGER, G. R., GIBSON, G. A., ANDSE-SHAN, S. Measurement and analysis of tcp throughput col-lapse in cluster-based storage systems. InProceedings of the 6th USENIX Conference on File and Storage Technologies(2008), pp. 12:1–12:14. ??????????? [31] PORTS, D. R. K., CLEMENTS,A.T.,ZHANG, I., MADDEN, S.,ANDLISKOV, B. Transactional consistency and automatic management in an application data cache. InProceedings of the 9th USENIX Symposium on Operating Systems Design & Implementation(2010), pp. 1–15. ??????????? [32] RAJASHEKHAR, M. Twemproxy: A fast, light-weight proxy for memcached.https://dev.twitter.com/blog/twemproxy. ??????????? [33] RAJASHEKHAR, M., ANDYUE, Y. Caching with twem-cache. http://engineering.twitter.com /2012/07/caching-with-twemcache.html. ??????????? [34] RATNASAMY, S., FRANCIS,P.,HANDLEY, M., KARP, R., ANDSHENKER, S. A scalable content-addressable network. ACM SIGCOMM Computer Communication Review 31, 4 (Oct.2001), 161–172. ??????????? [35] SATYANARAYANAN, M., KISTLER, J., KUMAR,P.,OKASAKI, M., SIEGEL, E., ANDSTEERE, D. Coda: A highly available file system for a distributed workstation environment. IEEE Trans-actions on Computers 39, 4 (Apr. 1990), 447–459.

-------------------------------------------page 13-------------------------------------------

??????????? [36] STOICA, I., MORRIS, R., KARGER, D., KAASHOEK, M., AND BALAKRISHNAN, H. Chord: A scalable peer-to-peer lookup service for internet applications. ACM SIGCOMM Computer Communication Review 31, 4 (Oct. 2001), 149–160. ??????????? [37] VENKATARAMANI,V.,AMSDEN, Z., BRONSON, N., CABR-ERAIII, G., CHAKKA,P.,DIMOV,P.,DING, H., FERRIS, J., GIARDULLO, A., HOON, J., KULKARNI, S., LAWRENCE, N., MARCHUKOV, M., PETROV, D., ANDPUZAR, L. Tao: how facebook serves the social graph. In Proceedings of the ACM SIGMOD International Conference on Management of Data(2012), pp. 791–792.

英文原文：Scaling Memcache At Facebook

轉(zhuǎn)自：http://www.linuxeden.com/html/news/20130605/139918_2.html

轉(zhuǎn)載于:https://www.cnblogs.com/YuanZhaoBest/p/3856478.html

總結(jié)

以上是生活随笔為你收集整理的Facebook 对 Memcache 伸缩性的增强的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：网页上的静止导航脚本
下一篇：从注册流程分析如何安全退出多个Acti

编程问答

Facebook 对 Memcache 伸缩性的增强

1 介紹

2綜述

3 集群之中： 延遲和負載

3.1 減少延遲

5 跨地區(qū)：一致性

6 單個服務(wù)器的提升

6.1 性能調(diào)優(yōu)

6.2 適應(yīng)性的slab分配器

6.3 臨時條目的緩存

7 memcache工作負載

7.1 web服務(wù)器上的測量

7.2 池的統(tǒng)計

8 相關(guān)工作

9 總結(jié)

總結(jié)

總結(jié)

3 集群之中：延遲和負載