谷歌云众多产品崩溃:神秘的元数据异常淹没了谷歌的 blob
谷歌近日解釋了上周谷歌云大規模崩潰的方式和原因,這種情況對該公司來說已是家常便飯。
詳細說明故障根本原因的谷歌云問題摘要:一開始解釋“許多谷歌服務針對不可變的非結構化數據(又叫作二進制大對象即 Blob)使用一種通用的內部分布式系統。該 Blob 存儲系統包含與谷歌內部客戶服務連接的前端、處理元數據操作的中間層以及面向 Blob 本身的后端存儲。當客戶向該前端發出請求時,元數據操作轉發到與存儲服務進行聯系的元數據服務。”
有意思的是,它對谷歌的操作做了一些解釋,卻沒有解釋哪里出了岔子。
下一段對此作了如下的描述:
來自另一項谷歌服務的流量增加開始使元數據服務不堪重負,導致任務變得不正常,并導致請求的延遲增加。而延遲增加促使這些操作過多地重試,因而導致資源耗盡。
雖然一些任務可以啟動,但許多任務“立即被它們收到的流量淹沒其中,而成功啟動的任務因資源耗盡而被分配了不足的資源。”
由于“用于取消和重試失效請求的策略加劇了這個問題——這導致流量出現倍增效應”,由此開始出現了連鎖反應。
結果如何?故障時間長達 6 小時 35 分鐘,具體時長取決于您使用哪種谷歌服務。
但是值得關注的是,谷歌云存儲的用戶沒有遇到任何異常,原因是雖然該產品依賴同樣的 Blob 存儲,但其元數據服務是隔離的。
谷歌的團隊寫道:“GCS 元數據隔離的遷移對‘美國’多地區而言是日常性的,而所有其他遷移都已完成。因而,對 GCS 客戶造成的影響有所減小,這種影響僅限于‘美國’多地區。”報告沒有解釋哪項谷歌服務導致了最初的元數據混亂,而最初的元數據混亂又導致了其他產品故障。谷歌當然承諾會修復所有出現異常的服務,并測試新的更可靠的例程以便在將來處理這種問題。
該公司還異常詳細地介紹了這次故障具體造成的后果,如下所示:
-
Gmail:一些用戶無法正常使用 Gmail 服務,電子郵件發送延遲。過去 7 天內處于活躍狀態的 Gmail 用戶(包括消費者和 G Suite)中約 0.73% 在故障期間遇到了 3 個或更多的可用性錯誤。G Suite 客戶占受影響的 Gmail 用戶總數的 27%。此外,一些用戶向郵件添加附件時遇到了錯誤。到 03 點 30 分已消除了 Gmail 受到的影響,因該事件延遲的所有郵件均已成功發送。
-
Drive:一些谷歌 Drive 用戶遇到了錯誤,延遲時間增加。過去 24 小時內處于活躍狀態的 Drive 用戶(包括消費者和 G Suite)中約 1.5% 在故障期間遇到了 3 個或更多的錯誤。
-
Docs 和 Editors:一些谷歌 Docs 用戶在執行圖片創建操作(比如上傳圖片、拷貝含有圖片的文檔或使用含有圖片的模板)時遇到了問題。
-
New Google Sites:一些用戶無法創建新的 Sites、無法向 Sites 添加新頁面或無法將圖片添加到 Sites。此外,故障期間利用模板創建 Sites 的錯誤率幾乎達到 100%。到 03 點 00 分已消除了 Sites 受到的影響。
-
Chat:嘗試發送郵件的谷歌 Chat 用戶中2% 遇到了錯誤,而嘗試將郵件轉發到 Gmail 的 Chat 用戶中 16% 遇到了錯誤。
-
Meet:故障期間,直播完全中斷;由于 YouTube 受影響,錄制出現延遲。Meet 受影響的時間從 21 點 00 分持續到 01 點 15 分,并從 01 點 40 分持續到 02 點 10 分。
-
Keep:一些谷歌 Keep 用戶收到了 500 內部服務器錯誤響應,或者涉及媒體的操作遇到了延遲。
-
Voice:一些帶有附件的出站 SMS 消息傳送失敗。一些入站語音郵件、呼叫記錄和 SMS 的傳送出現延遲。到 03 點 20 分消除了語音受到的影響。所有語音郵件和錄音已成功發送,最長延遲 5.5 個小時。
-
Jamboard:一些用戶試圖上傳圖片或拷貝含有圖片的文檔時遇到了錯誤。
-
Admin Console:一些用戶在 G Suite Admin Console(管理控制臺)中上傳 CSV 文件時遇到了錯誤。這些操作在故障期間的錯誤率在 15% 到 40% 之間。
-
App Engine:調用 Blobstore API 的 App Engine Standard 應用程序的錯誤率上升。在大多數地區,峰值錯誤率低于5%,但在 us-west1 峰值錯誤率高達 47%,us-central1 也有 13%。調用 Images API 的 App Engine Standard 應用程序的錯誤率更是高達 66%。
靜態文件或 Blobstore 對象提供服務的入站 HTTP 請求錯誤增加,峰值錯誤率為1%。
含有靜態文件的應用程序部署失敗,附有消息“將文件復制到 App Engine 時發生以下錯誤:文件 https://storage.googleapis.com/....失敗,原因:無法保存靜態文件。”到 03 點 25 分消除了 App Engine 受到的影響。
-
Cloud Logging:寫入到 Google Cloud Logging(谷歌云日志)的日志消息(包括谷歌生成的日志,比如 App Engine 請求日志、活動日志和審核日志)延遲時間長達 4 小時 43 分鐘。積壓的日志到 16 點 00 分才完全處理完畢。故障期間,寫入和讀取日志的 API 調用成功返回,但讀取返回的結果不完整。
-
Cloud Storage:針對位于“美國”多地區的 Google Cloud Storage(谷歌云存儲)存儲桶的 API 調用出現的錯誤率高達1%。到 00 點 31 分錯誤完全消除。
總結
以上是生活随笔為你收集整理的谷歌云众多产品崩溃:神秘的元数据异常淹没了谷歌的 blob的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《狂流 (Live) - (原唱:齐秦)
- 下一篇: 做事要有责任心的句子(做事要有责任心)