生活随笔
收集整理的這篇文章主要介紹了
twitter数据集_大数据周报-201925
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本周內容包括一些工具(如 DBT,Debezium for MySQL)、分布式系統架構(Databricks Delta Lake 事務日志、時序數據庫、一致性和隔離級別),以及關于 RocksDB 和 Twitter 最新開源的 telemetry agent 等。
文章 本教程介紹了如何啟用 MySQL 二進制日志,從而使用 Debezium 來進行流式的數據變更捕獲(即對 MySQL 表每一次的插入、修改、刪除都產生一條記錄)導入到 Kafka 中。https://blog.clairvoyantsoft.com/mysql-cdc-with-apache-kafka-and-debezium-3d45c00762e4 Klarna 介紹了 Diftong ——用于在工作流上驗證數據集的變化。Diftong 是一款通用型工具,可以對結構相同的兩個數據集應用一些技術——去重數據、行列統計等。如果你想拓展閱讀,可以閱讀完整的論文來了解它以及如何在 Klarna 應用的。https://engineering.klarna.com/how-we-built-a-tool-for-validating-big-data-workflows-170c196a4493 Delta Lake 框架通過數據集上的事務日志來提供原子性。事務日志以 JSON 來存儲,每個文件表示一次提交。文中介紹了實現細節,包括使用 checkpoint 來優化、并發控制優化、沖突處理。https://databricks.com/blog/2019/08/21/diving-into-delta-lake-unpacking-the-transaction-log.html Timescale 撰文介紹了他們基于 PostgreSQL 構建的分布式時間序列數據庫,目前還在開發中并開始內測。文中介紹了他們是如何使用“分塊”而非“分片”在集群上跨節點分發數據,并介紹了架構以及數據插入和查詢的處理過程。https://blog.timescale.com/blog/building-a-distributed-time-series-database-on-postgresql/ Dremio 博客介紹了 Apache Arrow 的一個新特性—— Flight 數據傳輸協議。Flight 基于 gRPC 構建,旨在利用 Arrow 的內存數據表示(即無序列化和反序列化)來充分使用網絡,并降低 CPU 負載。https://www.dremio.com/understanding-apache-arrow-flight/ Rezolus 是 Twitter 最新開源的遙測代理。它由 Rust 開發,并且實現了復雜的數據收集和抽樣,從而來檢測短時間內(比如小于 10 秒)的異常事件。https://blog.twitter.com/engineering/en_us/topics/open-source/2019/introducing-rezolus.html Rocket 介紹了他們是如何提高批量導入數據到 RocksDB 的性能。具體有并行寫入、壓縮優化等措施。整體來說,比開始提升了 20 倍的速度。https://www.rockset.com/blog/optimizing-bulk-load-in-rocksdb/ Telegraph 技術博客介紹了他們用于構建數據轉換的數據構建工具 dbt。其中介紹了 dbt 的主要功能,比如瀏覽數據源和模型的 UI、編寫模板化查詢的框架以及用于構建數據檢查測試的功能(例如保證在數據集中的唯一值或者某一列永不為 null)。https://medium.com/the-telegraph-engineering/dbt-a-new-way-to-handle-data-transformation-at-the-telegraph-868ce3964eb4 本文大致介紹了隔離級別和一致性級別,并解釋了為什么多數時候需要同時保證這二者。在很多場景下,我們使用專業術語來表示隔離級別和一致性級別,因此會有點復雜。但是如果你使用的數據系統經常使用這些術語,那么絕對值得去理解它們。https://fauna.com/blog/demystifying-database-systems-part-4-isolation-levels-vs-consistency-levels 本文首發于公眾號“數據Man”,歡迎關注!
數據Man
總結
以上是生活随笔 為你收集整理的twitter数据集_大数据周报-201925 的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔 網站內容還不錯,歡迎將生活随笔 推薦給好友。