當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用Apache Drill深入研究当今的大数据

發布時間：2023/12/3 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了使用Apache Drill深入研究当今的大数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

自2014年9月首次提供Beta版以來， Apache Drill一直在獲得廣泛的用戶采用和社區動力。2015年5月發布了Drill的通用版本-Drill 1.0，此后，許多客戶已在生產中部署和使用了Drill。在此博客文章中，我將簡要總結客戶在Drill中發現的寶貴價值的一些關鍵功能。我還將介紹部署Drill的常見用例，以及Drill入門資源。

為什么Drill對客戶具有吸引力

Drill提供對任何類型數據的SQL訪問，具有極大的靈活性和易用性

使用Drill，您可以在短短幾分鐘內查詢文件，Hive數據倉庫，HBase表甚至是非基于Hadoop的存儲系統中的數據，并且可以動態合并這些來源的數據。無需定義和維護任何中央元數據定義。鉆取就地查詢數據并即時發現模式。通過利用高級SQL解析器（ Apache Calcite ）提供的全面SQL支持，Drill還提供了SQL擴展，以本地查詢和操作復雜數據類型，例如大多數新數據源中常見的數組和映射（如網站點擊，社會，傳感器數據）。 Drill還隨附ODBC / JDBC驅動程序，因此可以很容易地將其插入到Tableau和MicroStrategy等BI工具中，以在組織中廣泛使用。

演練可提供大規模的低延遲性能

Drill是專為復雜數據而構建的分布式列式SQL查詢引擎。它不使用MapReduce，Tez或Spark 。 Drill可以部署在單個節點上，也可以水平擴展到10s到100s到1000s的節點，具體取決于需要支持的用戶數量，要滿足的性能SLA以及需要處理的數據量。除了規模之外，Drill還具有出色的性能。內存中的柱狀執行引擎旨在優化短查詢的處理，結合了高級和可插拔的優化功能，包括分區修剪，下推運算符以及基于規則和基于成本的查詢重寫功能。這些功能使Drill在大數據生態系統中成為功能強大的交互式工具。

Drill提供了細化和分散的安全模型

Drill中的視圖通常用作管理單元，以提供對Hadoop數據的細化行和列級訪問控制。與其他SQL技術/工具不同，鉆取視圖是去中心化的實體，并且僅作為文件系統上的文件進行維護（用戶可以選擇文件系統位置來創建視圖作為查詢的一部分）。這意味著可以使用文件系統權限來保護視圖，而無需建立單獨的安全性存儲庫來管理權限。

另外，Drill支持用戶模擬，因此特定的用戶身份可用于訪問這些視圖，而不是系統或進程用戶訪問數據，這在某些用戶環境中是不可接受的。 Drill還提供了強大的所有權鏈接功能，可控制給定用戶可以訪問多少級嵌套視圖，因此組織可以在自助數據探索與受控治理之間取得平衡。

演練用例

在更廣泛的層面上，Drill的用例是對Hadoop數據湖/數據中心中存儲的數據提供自助式BI /臨時查詢。在這個保護傘下存在幾個子用例，下面是一些常見的使用模式，我們看到客戶在其環境中利用Drill。請注意，根據數據處理和報告要求的類型，通常會同時使用這些用例的混合。

原始數據瀏覽：數據通常以文本和JSON等原始數據格式進入Hadoop集群。目標是以自助方式盡快將其提供給最終用戶，分析師，數據科學家和其他SQL專家查詢。這是我們看到客戶開始使用Drill時功能最強大且障礙最小的切入點。 Drill為這些大型原始數據集（有時由于處理過程的復雜性和成本而被忽略的數據集）帶來了啟發，立即打開了新型的BI用例類型，例如支持概念和查詢的即席證明，新產品開發，數據發現用于構建模型，數據探索和數據質量報告。
Hive表上的低延遲查詢：在這種情況下，首先使用Hive ETL作業對來自各種數據源（通常是傳統系統的負載）到達Hadoop集群的數據進行建模，預處理和轉換。目標是打開存儲在Hive中的BI / adhoc查詢數據集。這是標準用例，幾乎所有Hadoop工具上的SQL都致力于解決此問題。 Drill憑借其ANSI SQL功能，與Hive的深度集成（允許重用Hive資產（例如文件格式，UDF和元數據定義））以及在Hive上進行的查詢所帶來的巨大性能提升，為該用例提供了強大的價值。
HBase / MapR-DB上的操作分析 ：在此用例中，HBase / MapR-DB用作需要頻繁更新的廣泛，稀疏且經常動態的數據集的操作數據存儲/數據中心。 Drill具有從NoSQL數據源實時發現架構的能力，并具有全面的SQL函數支持以讀取/解釋各種數據類型和編碼，Drill成為查詢這些系統中數據的自然工具。

產品進度

Drill社區正在通過迭代發布在產品上取得快速進展。在GA中提供了核心基礎后不久，便在7月發布了新的1.1版本（請參閱發行說明），它基于支持上述用例的功能集以及對SQL支持，性能，規模和企業的持續改進。可管理性。 Drill 1.2版本中還有更多令人興奮的增強功能，您也可以檢出。

如何開始使用Drill

在10分鐘內在筆記本電腦上開始使用Drill
將Drill與Hadoop結合使用-MapR沙箱和教程
嘗試使用Amazon Web Services進行鉆取
將Drill下載到您的MapR集群
按需訓練
詳細的分步教程

有關完整文檔，請參閱http://drill.apache.org/docs 。其他資源可以在http://mapr.com/apachedrill找到

您有關于Apache Drill的問題嗎？在下面的評論部分中詢問他們。

翻譯自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html

總結

以上是生活随笔為你收集整理的使用Apache Drill深入研究当今的大数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。