使用Apache Drill深入研究当今的大数据
自2014年9月首次提供Beta版以來, Apache Drill一直在獲得廣泛的用戶采用和社區動力。2015年5月發布了Drill的通用版本-Drill 1.0,此后,許多客戶已在生產中部署和使用了Drill。 在此博客文章中,我將簡要總結客戶在Drill中發現的寶貴價值的一些關鍵功能。 我還將介紹部署Drill的常見用例,以及Drill入門資源。
為什么Drill對客戶具有吸引力
Drill提供對任何類型數據的SQL訪問,具有極大的靈活性和易用性
使用Drill,您可以在短短幾分鐘內查詢文件,Hive數據倉庫,HBase表甚至是非基于Hadoop的存儲系統中的數據,并且可以動態合并這些來源的數據。 無需定義和維護任何中央元數據定義。 鉆取就地查詢數據并即時發現模式。 通過利用高級SQL解析器( Apache Calcite )提供的全面SQL支持,Drill還提供了SQL擴展,以本地查詢和操作復雜數據類型,例如大多數新數據源中常見的數組和映射(如網站點擊,社會,傳感器數據)。 Drill還隨附ODBC / JDBC驅動程序,因此可以很容易地將其插入到Tableau和MicroStrategy等BI工具中,以在組織中廣泛使用。
演練可提供大規模的低延遲性能
Drill是專為復雜數據而構建的分布式列式SQL查詢引擎 。 它不使用MapReduce,Tez或Spark 。 Drill可以部署在單個節點上,也可以水平擴展到10s到100s到1000s的節點,具體取決于需要支持的用戶數量,要滿足的性能SLA以及需要處理的數據量。 除了規模之外,Drill還具有出色的性能。 內存中的柱狀執行引擎旨在優化短查詢的處理,結合了高級和可插拔的優化功能,包括分區修剪,下推運算符以及基于規則和基于成本的查詢重寫功能。 這些功能使Drill在大數據生態系統中成為功能強大的交互式工具。
Drill提供了細化和分散的安全模型
Drill中的視圖通常用作管理單元,以提供對Hadoop數據的細化行和列級訪問控制。 與其他SQL技術/工具不同,鉆取視圖是去中心化的實體,并且僅作為文件系統上的文件進行維護(用戶可以選擇文件系統位置來創建視圖作為查詢的一部分)。 這意味著可以使用文件系統權限來保護視圖,而無需建立單獨的安全性存儲庫來管理權限。
另外,Drill支持用戶模擬,因此特定的用戶身份可用于訪問這些視圖,而不是系統或進程用戶訪問數據,這在某些用戶環境中是不可接受的。 Drill還提供了強大的所有權鏈接功能,可控制給定用戶可以訪問多少級嵌套視圖,因此組織可以在自助數據探索與受控治理之間取得平衡。
演練用例
在更廣泛的層面上,Drill的用例是對Hadoop數據湖/數據中心中存儲的數據提供自助式BI /臨時查詢。 在這個保護傘下存在幾個子用例 ,下面是一些常見的使用模式,我們看到客戶在其環境中利用Drill。 請注意,根據數據處理和報告要求的類型,通常會同時使用這些用例的混合。
- 原始數據瀏覽:數據通常以文本和JSON等原始數據格式進入Hadoop集群。 目標是以自助方式盡快將其提供給最終用戶,分析師,數據科學家和其他SQL專家查詢。 這是我們看到客戶開始使用Drill時功能最強大且障礙最小的切入點。 Drill為這些大型原始數據集(有時由于處理過程的復雜性和成本而被忽略的數據集)帶來了啟發,立即打開了新型的BI用例類型,例如支持概念和查詢的即席證明,新產品開發,數據發現用于構建模型,數據探索和數據質量報告。
- Hive表上的低延遲查詢:在這種情況下,首先使用Hive ETL作業對來自各種數據源(通常是傳統系統的負載)到達Hadoop集群的數據進行建模,預處理和轉換。 目標是打開存儲在Hive中的BI / adhoc查詢數據集。 這是標準用例,幾乎所有Hadoop工具上的SQL都致力于解決此問題。 Drill憑借其ANSI SQL功能,與Hive的深度集成(允許重用Hive資產(例如文件格式,UDF和元數據定義))以及在Hive上進行的查詢所帶來的巨大性能提升,為該用例提供了強大的價值。
- HBase / MapR-DB上的操作分析 :在此用例中,HBase / MapR-DB用作需要頻繁更新的廣泛,稀疏且經常動態的數據集的操作數據存儲/數據中心。 Drill具有從NoSQL數據源實時發現架構的能力,并具有全面的SQL函數支持以讀取/解釋各種數據類型和編碼,Drill成為查詢這些系統中數據的自然工具。
產品進度
Drill社區正在通過迭代發布在產品上取得快速進展。 在GA中提供了核心基礎后不久,便在7月發布了新的1.1版本(請參閱發行說明),它基于支持上述用例的功能集以及對SQL支持,性能,規模和企業的持續改進。可管理性。 Drill 1.2版本中還有更多令人興奮的增強功能,您也可以檢出。
如何開始使用Drill
- 在10分鐘內在筆記本電腦上開始使用Drill
- 將Drill與Hadoop結合使用-MapR沙箱和教程
- 嘗試使用Amazon Web Services進行鉆取
- 將Drill下載到您的MapR集群
- 按需訓練
- 詳細的分步教程
有關完整文檔,請參閱http://drill.apache.org/docs 。 其他資源可以在http://mapr.com/apachedrill找到
您有關于Apache Drill的問題嗎? 在下面的評論部分中詢問他們。
翻譯自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html
總結
以上是生活随笔為你收集整理的使用Apache Drill深入研究当今的大数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 向导页设计_向导设计模式
- 下一篇: 安卓三国单机游戏(安卓三国单机)