當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

分布式服务常见问题—访问量统计如何做？

發布時間：2024/4/15 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了分布式服务常见问题—访问量统计如何做？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文作者：逖靖寒的世界

原文地址：分布式實時統計系統--RAINBIRD

最近Twitter開發了一款分布式實時統計系統Rainbird。Rainbird可以用于實時數據的統計：

統計網站中每一個頁面，域名的點擊次數
內部系統的運行監控（統計被監控服務器的運行狀態）
記錄最大值和最小值

性能要求

作為大型網站的分布式應用，需要具備以下性能：?

極高的寫入性能，可以達到100,000的WPS
非常高的讀取性能，可以達到10,000s的RPS
高度的可擴展性，包括讀取和存儲等等，能夠擴展到100+ TB的量級
讀取速度響應間隔短，絕大多數的讀取速度應該不超過100ms

系統組件

Rainbird一款基于Zookeeper, Cassandra, Scribe, Thrift的分布式實時統計系統，這些基礎組件的基本功能如下：

Zookeeper：Hadoop子項目中的一款分布式協調系統，用于控制分布式系統中各個組件中的一致性。
Cassandra：NoSQL中一款非常出色的產品，集合了Dynamo和Bigtable特性的分布式存儲系統，用于存儲需要進行統計的數據，并且提供客戶端進行統計數據的查詢。（需要使用分布式Counter補丁CASSANDRA-1072）
Scribe：Facebook開源的一款分布式日志收集系統，用于在系統中將各個需要統計的數據源收集到Cassandra中。
Thrift：Facebook開源的一款跨語言C/S網絡通信框架，開發人員基于這個框架可以輕易地開發C/S應用。

整體設計

Rainbird的設計架構圖如下：

整個Rainbird系統中各個組件之間的協調和容災處理由ZooKeeper負責，Cassandra負責整個數據的存儲和統計。Front End中部署了Scribe，收集需要統計的數據，然后將收集到數據實時地發生到Rainbird Aggregator中。Rainbird Aggregator將緩存收集的數據（1M），并將緩存的數據進行一次預處理，然后再將數據一次性批量寫入到Cassandra中。這里預處理的作用類似于MapReduce框架中的combiner的作用，在Maper端做Reduce。Rainbird Query接受用戶的查詢請求，直接到Cassandra中查詢已經統計好的數據返回給客戶端。

頁面URL統計示例

假設我們需要統計網站的頁面點擊的情況，那么如何使用Rainbird來進行統計呢？在統計的過程中，本博客中一篇文章的URL為：http://www.cnblogs.com/gpcuster/tag/Cassandra/。我們可以將這個URL分拆為以下四個部分com、cnblogs、www、http://www.cnblogs.com/gpcuster/tag/Cassandra/?然后以分拆后的這四個部分組合為以下Key：

com,cnblogs,www,http://www.cnblogs.com/gpcuster/tag/Cassandra/
com,cnblogs,www
com,cnblogs
com

最后將這些Key的數據寫入Cassandra中。這樣就完成了整個統計的過程。如果需要查詢頁面http://www.cnblogs.com/gpcuster/tag/Cassandra/被訪問了多少次，只要在Cassandra中查詢Key為com,cnblogs,www,http://www.cnblogs.com/gpcuster/tag/Cassandra/的值即可。如果需要查詢頁面http://www.cnblogs.com被訪問了多少次，只要在Cassandra中查詢Key為com,cnblogs,www的值即可。如果要查詢頁面http://*cnblogs.com被訪問了多少次，也可以進行類似的查詢即可。

更多參考

如果希望了解更詳細的信息，可以參考：http://www.slideshare.net/kevinweil/rainbird-realtime-analytics-at-twitter-strata-2011
另外，想了解更多關于Cassandra的信息，可以參考：http://www.cnblogs.com/gpcuster/tag/Cassandra/
想了解更多關于ZooKeeper的信息，可以參考：http://www.cnblogs.com/gpcuster/tag/ZooKeeper/

總結

以上是生活随笔為你收集整理的分布式服务常见问题—访问量统计如何做？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java基础—8大数据类型
下一篇：分布式实时计算—实时计算相关问题及解决方