當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Apache Kylin从入门到精通

發(fā)布時(shí)間：2024/8/23 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 Apache Kylin从入门到精通小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Kylin

文章目錄

Kylin
- 一、概述
- - 1.1 Kylin定義
  - 1.2 Kylin架構(gòu)
  - 1.3 Kylin特點(diǎn)
  - 1.4 Apache Kylin4 概述
  - - 為什么選擇 Parquet 替換 HBase?
    - 預(yù)計(jì)算結(jié)果在 Kylin4.0 中如何存儲(chǔ)?
    - Kylin 4.0 的構(gòu)建引擎
    - Kylin 4.0 的查詢引擎
    - Kylin 4.0 與 Kylin 3.1 功能對(duì)比
    - Kylin 4.0 性能表現(xiàn)
    - 如何升級(jí)
    - Kylin 4.0 查詢和構(gòu)建調(diào)優(yōu)
    - Kylin 4.0 用戶案例
- 二、Kylin環(huán)境搭建（4.x）
- - 軟件要求
  - 硬件要求
  - Hadoop 環(huán)境
  - Kylin 安裝
  - 提前準(zhǔn)備
  - Web頁(yè)面介紹
  - - 支持的瀏覽器
    - 登錄系統(tǒng)
    - 創(chuàng)建工程
    - 選擇數(shù)據(jù)源
    - 創(chuàng)建Model
    - 創(chuàng)建Cube
    - Cube構(gòu)建與監(jiān)控
    - WEB UI查詢SQL
- 三、SSB數(shù)據(jù)實(shí)際測(cè)試
- - - 生成SBB基準(zhǔn)測(cè)試數(shù)據(jù)
    - Mysql查詢、Hive查詢、Kylin查詢對(duì)比
- 四、Kylin使用注意事項(xiàng)
- - - 只能按照構(gòu)建Model的連接條件寫(xiě)SQL查詢
    - 只能按照構(gòu)建 Cube 時(shí)選擇的維度字段分組統(tǒng)計(jì)
    - 只能統(tǒng)計(jì)構(gòu)建Cube 時(shí)選擇的度量值字段
- 五、Kylin每日自動(dòng)構(gòu)建Cube
- 六、BI工具集成
- - JDBC
  - Zepplin
  - - 安裝與啟動(dòng)
    - 訪問(wèn)
    - 配置Kylin
    - 使用Zepplin查詢Kylin

一、概述

1.1 Kylin定義

? Apache Kylin?是一個(gè)開(kāi)源的、分布式的分析型數(shù)據(jù)倉(cāng)庫(kù)，提供Hadoop/Spark 之上的 SQL 查詢接口及多維分析（OLAP）能力以支持超大規(guī)模數(shù)據(jù)，最初由 eBay 開(kāi)發(fā)并貢獻(xiàn)至開(kāi)源社區(qū)。它能在亞秒內(nèi)查詢巨大的表。

1.2 Kylin架構(gòu)

REST Service

? REST Server 是一套面向應(yīng)用程序開(kāi)發(fā)的入口點(diǎn)，旨在實(shí)現(xiàn)針對(duì) Kylin 平臺(tái)的應(yīng)用開(kāi)發(fā)

工作。此類應(yīng)用程序可以提供查詢、獲取結(jié)果、觸發(fā) cube 構(gòu)建任務(wù)、獲取元數(shù)據(jù)以及獲取

用戶權(quán)限等等。另外可以通過(guò) Restful 接口實(shí)現(xiàn) SQL 查詢。

查詢引擎（Query Engine）

? 當(dāng) cube 準(zhǔn)備就緒后，查詢引擎就能夠獲取并解析用戶查詢。它隨后會(huì)與系統(tǒng)中的其它

組件進(jìn)行交互，從而向用戶返回對(duì)應(yīng)的結(jié)果。

路由器（Routing）

? 在最初設(shè)計(jì)時(shí)曾考慮過(guò)將 Kylin 不能執(zhí)行的查詢引導(dǎo)去 Hive 中繼續(xù)執(zhí)行，但在實(shí)踐后

發(fā)現(xiàn) Hive 與 Kylin 的速度差異過(guò)大，導(dǎo)致用戶無(wú)法對(duì)查詢的速度有一致的期望，很可能大

多數(shù)查詢幾秒內(nèi)就返回結(jié)果了，而有些查詢則要等幾分鐘到幾十分鐘，因此體驗(yàn)非常糟糕。

最后這個(gè)路由功能在發(fā)行版中默認(rèn)關(guān)閉。

元數(shù)據(jù)管理工具（Metadata）

? Kylin 是一款元數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用程序。元數(shù)據(jù)管理工具是一大關(guān)鍵性組件，用于對(duì)保存

在 Kylin 當(dāng)中的所有元數(shù)據(jù)進(jìn)行管理，其中包括最為重要的 cube 元數(shù)據(jù)。其它全部組件的

正常運(yùn)作都需以元數(shù)據(jù)管理工具為基礎(chǔ)。 Kylin 的元數(shù)據(jù)存儲(chǔ)在 hbase （3.x版本）中。

任務(wù)引擎（Cube Build Engine）

? 這套引擎的設(shè)計(jì)目的在于處理所有離線任務(wù)，其中包括 shell 腳本、Java API 以及 Map

Reduce 任務(wù)等等。任務(wù)引擎對(duì) Kylin 當(dāng)中的全部任務(wù)加以管理與協(xié)調(diào)，從而確保每一項(xiàng)任務(wù)

都能得到切實(shí)執(zhí)行并解決其間出現(xiàn)的故障。

1.3 Kylin特點(diǎn)

? Kylin 的主要特點(diǎn)包括支持 SQL 接口、支持超大規(guī)模數(shù)據(jù)集、亞秒級(jí)響應(yīng)、可伸縮性、

高吞吐率、BI 工具集成等。

標(biāo)準(zhǔn) SQL 接口：Kylin 是以標(biāo)準(zhǔn)的 SQL 作為對(duì)外服務(wù)的接口。

支持超大數(shù)據(jù)集：Kylin 對(duì)于大數(shù)據(jù)的支撐能力可能是目前所有技術(shù)中最為領(lǐng)先的。

早在 2015 年 eBay 的生產(chǎn)環(huán)境中就能支持百億記錄的秒級(jí)查詢，之后在移動(dòng)的應(yīng)用場(chǎng)景中

又有了千億記錄秒級(jí)查詢的案例。

亞秒級(jí)響應(yīng)：Kylin 擁有優(yōu)異的查詢相應(yīng)速度，這點(diǎn)得益于預(yù)計(jì)算，很多復(fù)雜的計(jì)算，

比如連接、聚合，在離線的預(yù)計(jì)算過(guò)程中就已經(jīng)完成，這大大降低了查詢時(shí)刻所需的計(jì)算量，

提高了響應(yīng)速度。

可伸縮性和高吞吐率：單節(jié)點(diǎn) Kylin 可實(shí)現(xiàn)每秒 70 個(gè)查詢，還可以搭建 Kylin 的集

群。

BI 工具集成:

Kylin 可以與現(xiàn)有的 BI 工具集成，具體包括如下內(nèi)容。

ODBC：與 Tableau、Excel、PowerBI 等工具集成

JDBC：與 Saiku、BIRT 等 Java 工具集成

RestAPI：與 JavaScript、Web 網(wǎng)頁(yè)集成

Kylin 開(kāi)發(fā)團(tuán)隊(duì)還貢獻(xiàn)了 Zepplin 的插件，也可以使用 Zepplin 來(lái)訪問(wèn) Kylin 服務(wù)。

1.4 Apache Kylin4 概述

? Apache Kylin?是一個(gè)開(kāi)源的、分布式的分析型數(shù)據(jù)倉(cāng)庫(kù)，提供 Hadoop 之上的 SQL 查詢接口及多維分析（OLAP）能力以支持超大規(guī)模數(shù)據(jù)，最初由eBay Inc.開(kāi)發(fā)并貢獻(xiàn)至開(kāi)源社區(qū)。

? Apache Kylin4.0 是 Apache Kylin3.x 之后一次重大的版本更新，它采用了全新的 Spark 構(gòu)建引擎和 Parquet 作為存儲(chǔ)，同時(shí)使用 Spark 作為查詢引擎。

為了方便用戶對(duì) Kylin4.x 有更全面更深層的了解，本篇文檔會(huì)著重從 Kylin4.x 與之前版本有何異同的角度對(duì) Kylin4.x 做全面概述。文章分為以下幾個(gè)部分：

為什么選擇 Parquet 替換 HBase
預(yù)計(jì)算結(jié)果在 Kylin4.0 中如何存儲(chǔ)
Kylin 4.0 的構(gòu)建引擎
Kylin 4.0 的查詢引擎
Kylin4.0 與 Kylin3.1 功能對(duì)比
Kylin 4.0 性能表現(xiàn)
Kylin 4.0 查詢和構(gòu)建調(diào)優(yōu)
Kylin 4.0 用戶案例

為什么選擇 Parquet 替換 HBase?

? 在 3.x 以及之前的版本中，kylin 一直使用 HBase 作為存儲(chǔ)引擎來(lái)保存 cube 構(gòu)建后產(chǎn)生的預(yù)計(jì)算結(jié)果。HBase 作為 HDFS 之上面向列族的數(shù)據(jù)庫(kù)，查詢表現(xiàn)已經(jīng)算是比較優(yōu)秀，但是它仍然存在以下幾個(gè)缺點(diǎn)：

HBase 不是真正的列式存儲(chǔ)；

HBase表數(shù)據(jù)模型比較特別，也可以簡(jiǎn)單理解為有行和列的二維表，只是它的列稱為“列族”，列族下面又可以在數(shù)據(jù)寫(xiě)入時(shí)指定很多的子列。另外，HBase物理存儲(chǔ)上是將整個(gè)列族數(shù)據(jù)存儲(chǔ)在一起的。所以，如果HBase中的一張表只有一個(gè)列族的話，等于是這個(gè)列族包含了這張表的所有列，也就是將表正行的數(shù)據(jù)連續(xù)存儲(chǔ)在了一起，就等于是行式存儲(chǔ)了。再比如，一張表有多個(gè)列族，并且每個(gè)列族下僅有一列（雖然HBase不建議這么做），也就是將表的列數(shù)據(jù)連續(xù)存儲(chǔ)在了一起，就等于是列式存儲(chǔ)了。

HBase 沒(méi)有二級(jí)索引，Rowkey 是它唯一的索引；

HBase 沒(méi)有對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行編碼，kylin 必須自己進(jìn)行對(duì)數(shù)據(jù)編碼的過(guò)程；

HBase 不適合云上部署和自動(dòng)伸縮；

HBase 不同版本之間的 API 版本不同，存在兼容性問(wèn)題（比如，0.98，1.0，1.1，2.0）；

HBase 存在不同的供應(yīng)商版本，他們之間有兼容性問(wèn)題。

針對(duì)以上問(wèn)題，社區(qū)提出了對(duì)使用 Apache Parquet + Spark 來(lái)代替 HBase 的提議，理由如下：

Parquet 是一種開(kāi)源并且已經(jīng)成熟穩(wěn)定的列式存儲(chǔ)格式；

Parquet 對(duì)云更加友好，可以兼容各種文件系統(tǒng)，包括 HDFS、S3、Azure Blob store、Ali OSS 等

Parquet 可以很好地與 Hadoop、Hive、Spark、Impala 等集成；

Parquet 支持自定義索引。

預(yù)計(jì)算結(jié)果在 Kylin4.0 中如何存儲(chǔ)?

? 在 Kylin4.x 中，預(yù)計(jì)算結(jié)果以 Parquet 格式存儲(chǔ)在文件系統(tǒng)中，文件存儲(chǔ)結(jié)構(gòu)對(duì)于 I/O 優(yōu)化很重要，提前對(duì)存儲(chǔ)目錄結(jié)構(gòu)進(jìn)行設(shè)計(jì)，就能夠在查詢時(shí)通過(guò)目錄或者文件名過(guò)濾數(shù)據(jù)文件，避免不必要的掃描。

Kylin4 對(duì) cube 進(jìn)行構(gòu)建得到的預(yù)計(jì)算結(jié)果的 Parquet 文件在文件系統(tǒng)中存儲(chǔ)的目錄結(jié)構(gòu)如下：

- cube_name - SegmentA - Cuboid-111 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - … - Cuboid-222 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - … - SegmentB - Cuboid-111 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - … - Cuboid-222 - part-0000-XXX.snappy.parquet - part-0001-XXX.snappy.parquet - …

可以看出，與 HBase 相比，采用 Parquet 存儲(chǔ)可以很方便地增刪 cuboid 而不影響其他數(shù)據(jù)。利用這種特點(diǎn)，Kylin4 中實(shí)現(xiàn)了支持用戶手動(dòng)增刪 cuboid 的功能，請(qǐng)參考：How to update cuboid list for a cube

Kylin 4.0 的構(gòu)建引擎

在 Kylin4 中，Spark Engine 是唯一的構(gòu)建引擎，與之前版本中的構(gòu)建引擎相比，存在如下特點(diǎn)：

Kylin4 的構(gòu)建簡(jiǎn)化了很多步驟。比如在 Cube Build Job 中， kylin4 只需要資源探測(cè)和 cubing 兩個(gè)步驟，就可以完成構(gòu)建；

由于 Parquet 會(huì)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行編碼，所以在 kylin4 中不再需要維度字典和對(duì)維度列編碼的過(guò)程；

Kylin4 對(duì)全局字典做了全新的實(shí)現(xiàn)，更多細(xì)節(jié)請(qǐng)參考：Kylin4 全局字典；

Kylin4 會(huì)根據(jù)集群資源、構(gòu)建任務(wù)情況等對(duì) Spark 進(jìn)行自動(dòng)調(diào)參；

Kylin4 提高了構(gòu)建速度。

用戶可以通過(guò) kylin.build.spark-conf 開(kāi)頭的配置項(xiàng)手動(dòng)修改構(gòu)建相關(guān)的 Spark 配置，經(jīng)過(guò)用戶手動(dòng)修改的 Spark 配置項(xiàng)不會(huì)再參與自動(dòng)調(diào)參。

Kylin 4.0 的查詢引擎

Kylin4 的查詢引擎 Sparder(SparderContext) 是由 spark application 后端實(shí)現(xiàn)的新型分布式查詢引擎，相比于原來(lái)的查詢引擎，Sparder 的優(yōu)勢(shì)體現(xiàn)在以下幾點(diǎn)：
- 分布式的查詢引擎，有效避免單點(diǎn)故障；
- 與構(gòu)建所使用的計(jì)算引擎統(tǒng)一為 Spark；
- 對(duì)于復(fù)雜查詢的性能有很大提高；
- 可以從 Spark 的新功能及其生態(tài)中獲益。

在 Kylin4 中，Sparder 是作為一個(gè) long-running 的 spark application 存在的。 Sparder 會(huì)根據(jù) kylin.query.spark-conf 開(kāi)頭的配置項(xiàng)中配置的 Spark 參數(shù)來(lái)獲取 Yarn 資源，如果配置的資源參數(shù)過(guò)大，可能會(huì)影響構(gòu)建任務(wù)甚至無(wú)法成功啟動(dòng) Sparder，如果 Sparder 沒(méi)有成功啟動(dòng)，則所有查詢?nèi)蝿?wù)都會(huì)失敗，用戶可以在 kylin WebUI 的 System 頁(yè)面中檢查 Sparder 狀態(tài)。

默認(rèn)情況下，用于查詢的 spark 參數(shù)會(huì)設(shè)置的比較小，在生產(chǎn)環(huán)境中，大家可以適當(dāng)把這些參數(shù)調(diào)大一些，以提升查詢性能。
kylin.query.auto-sparder-context 參數(shù)用于控制是否在啟動(dòng) kylin 的同時(shí)啟動(dòng) Sparder，默認(rèn)值為 false，即默認(rèn)情況下會(huì)在執(zhí)行第一條 SQL 的時(shí)候才啟動(dòng) Sparder，由于這個(gè)原因，執(zhí)行第一條 SQL 的時(shí)候的會(huì)花費(fèi)較長(zhǎng)時(shí)間。
如果你不希望第一條 SQL 的查詢速度低于預(yù)期，可以設(shè)置 kylin.query.auto-sparder-context 為 true，此時(shí) Sparder 會(huì)隨 Kylin 一起啟動(dòng)。

Kylin 4.0 與 Kylin 3.1 功能對(duì)比

FeatureKylin 3.1.0Kylin 4.0

Storage	HBase	Parquet
BuildEngine	MapReduce/Spark/Flink	New Spark Engine
Metastore	HBase(Default)/Mysql	Mysql(Default)
DataSource	Kafka/Hive/JDBC	Hive/CSV
Global Dictionary	Two implementation	New implementation
Cube Optimization Tool	Cube Planner	Cube Planner phase1 and Optimize cube manually
Self-monitoring	System cube and Dashboard	System cube and Dashboard
PushDown Engine	Hive/JDBC	Spark SQL
Hadoop platform	HDP2/HDP3/CDH5/CDH6/EMR5	HDP2/CDH5/CDH6/EMR5/EMR6/HDI
Deployment mode	Single node/Cluster/Read and write separation	Single node/Cluster/Read and write separation

Kylin 4.0 性能表現(xiàn)

為了測(cè)試 Kylin4.0 的性能，我們分別在 SSB 數(shù)據(jù)集和 TPC-H 數(shù)據(jù)集上做了 benchmark，與 Kylin3.1.0 進(jìn)行對(duì)比。測(cè)試環(huán)境為 4 個(gè)節(jié)點(diǎn)的 CDH 集群，所使用的 yarn 隊(duì)列分配了 400G 內(nèi)存和 128 cpu cores。

SSB（Star Schema Benchmark）是麻省州立大學(xué)波士頓校區(qū)的研究人員定義的基于現(xiàn)實(shí)商業(yè)應(yīng)用的數(shù)據(jù)模型，用來(lái)評(píng)價(jià)決策支持技術(shù)方面應(yīng)用的性能。

TPC-H是由TPC(Transaction Processing Performance Council)事務(wù)處理性能委員會(huì)公布的一套針對(duì)數(shù)據(jù)庫(kù)決策支持能力的測(cè)試基準(zhǔn)，通過(guò)模擬數(shù)據(jù)庫(kù)中與業(yè)務(wù)相關(guān)的復(fù)雜查詢考察數(shù)據(jù)庫(kù)的綜合處理能力，獲取數(shù)據(jù)庫(kù)操作的響應(yīng)時(shí)間。

TPCH基準(zhǔn)模型中定義了一個(gè)數(shù)據(jù)庫(kù)模型，容量可以在1GB~10000GB的8個(gè)級(jí)別中進(jìn)行選擇。數(shù)據(jù)庫(kù)模型包括CUSTOMER、LINEITEM、NATION、ORDERS、PART、PARTSUPP、REGION和SUPPLIER 共8張數(shù)據(jù)表，以及22條SQL查詢語(yǔ)句，涉及內(nèi)容廣泛豐富，可以較完整地測(cè)試數(shù)據(jù)庫(kù)的運(yùn)算性能。

TPCH的SQL中不乏一些多層嵌套的復(fù)雜查詢，執(zhí)行性能較差。對(duì)于這些查詢，如果能采用更合理的存儲(chǔ)方案，設(shè)計(jì)低復(fù)雜度算法并配合并行等手段，將獲得更優(yōu)的性能。但遺憾的是，由于理論體系的限制，很多想法無(wú)法用SQL實(shí)現(xiàn)，而SQL程序員也因此不關(guān)注這些性能優(yōu)化方法，經(jīng)常只能忍受數(shù)據(jù)庫(kù)的低速運(yùn)算。

TPC-H 下載：https://github.com/gregrahn/

性能測(cè)試對(duì)比結(jié)果如下：
Comparison of build duration and result size（SSB）

測(cè)試結(jié)果可以體現(xiàn)以下兩點(diǎn)：

kylin4 的構(gòu)建速度與 kylin3.1.0 的 Spark Engine 相比有明顯提升；
Kylin4 構(gòu)建后得到的預(yù)計(jì)算結(jié)果 Parquet 文件大小與 HBase 相比有明顯減小；

Comparison of query response(SSB and TPC-H)

? 從查詢結(jié)果對(duì)比中可以看出，對(duì)于簡(jiǎn)單查詢，kylin3 與 Kylin4 不相上下，kylin4 略有不足；而對(duì)于復(fù)雜查詢，kylin4 則體現(xiàn)出了明顯的優(yōu)勢(shì)，查詢速度比 kylin3 快很多。
? 并且，Kylin4 中的簡(jiǎn)單查詢的性能還存在很大的優(yōu)化空間。在有贊使用 Kylin4 的實(shí)踐中，對(duì)于簡(jiǎn)單查詢的性能可以優(yōu)化到 1 秒以內(nèi)。

如何升級(jí)

請(qǐng)參考文檔：How to migrate metadata to Kylin4

Kylin 4.0 查詢和構(gòu)建調(diào)優(yōu)

對(duì)于 Kylin4 的調(diào)優(yōu)，請(qǐng)參考：How to improve cube building and query performance

Kylin 4.0 用戶案例

Why did Youzan choose Kylin4

參考鏈接：
Kylin Improvement Proposal 1: Parquet Storage

二、Kylin環(huán)境搭建（4.x）

軟件要求

Hadoop: cdh5.x, cdh6.x, hdp2.x, EMR5.x, EMR6.x, HDI4.x
Hive: 0.13 - 1.2.1+
Spark: 2.4.7/3.1.1
Mysql: 5.1.17 及以上
JDK: 1.8+
OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+

在 Hortonworks HDP2.4, Cloudera CDH 5.7 and 6.3.2, AWS EMR 5.31 and 6.0, Azure HDInsight 4.0 上測(cè)試通過(guò)。

我們建議您使用集成的 sandbox 來(lái)試用 Kylin 或進(jìn)行開(kāi)發(fā)，比如 HDP sandbox，且要保證其有至少 10 GB 內(nèi)存。在配置沙箱時(shí)，我們推薦您使用 Bridged Adapter 模型替代 NAT 模型。

硬件要求

? 運(yùn)行 Kylin 的服務(wù)器的最低配置為 4 core CPU，16 GB 內(nèi)存和 100 GB 磁盤(pán)。對(duì)于高負(fù)載的場(chǎng)景，建議使用 24 core CPU，64 GB 內(nèi)存或更高的配置。

Hadoop 環(huán)境

? Kylin 依賴于 Hadoop 集群處理大量的數(shù)據(jù)集。您需要準(zhǔn)備一個(gè)配置好 HDFS, YARN, Hive, Zookeeper, Spark以及你可能需要的其他服務(wù)的 Hadoop 集群供 Kylin 運(yùn)行。

? Kylin 可以在 Hadoop 集群的任意節(jié)點(diǎn)上啟動(dòng)。方便起見(jiàn)，您可以在 master 節(jié)點(diǎn)上運(yùn)行 Kylin。但為了更好的穩(wěn)定性，我們建議您將 Kylin 部署在一個(gè)干凈的 Hadoop client 節(jié)點(diǎn)上，該節(jié)點(diǎn)上 Hive，HDFS 等命令行已安裝好且 client 配置（如 core-site.xml，hive-site.xml及其他）也已經(jīng)合理的配置且其可以自動(dòng)和其它節(jié)點(diǎn)同步。

? 運(yùn)行 Kylin 的 Linux 賬戶要有訪問(wèn) Hadoop 集群的權(quán)限，包括創(chuàng)建/寫(xiě)入 HDFS 文件夾，Hive 表的權(quán)限。

Kylin 安裝

安裝 Kylin 前需先部署好 Hadoop、Hive、Zookeeper、Hbase、Spark，并且需要在/etc/profile

中配置以下環(huán)境變量 HADOOP_HOME，HIVE_HOME，HBASE_HOME，SPARK_HOME 記

得 source 使其生效。

在我們需要安裝的服務(wù)器執(zhí)行以下操作：

從 Apache Kylin下載網(wǎng)站下載一個(gè) Apache Kylin 4.0 的二進(jìn)制文件。可通過(guò)如下命令行下載得到：

cd /usr/local/ wget --no-check-certificate https://dlcdn.apache.org/kylin/apache-kylin-4.0.1/apache-kylin-4.0.1-bin-spark2.tar.gz

解壓 tar 包，配置環(huán)境變量 $KYLIN_HOME 指向 Kylin 文件夾。

tar -zxvf apache-kylin-4.0.1-bin-spark2.tar.gz mv apache-kylin-4.0.1-bin-spark2 kylin cd kylin export KYLIN_HOME=`pwd`

使用腳本下載spark

$KYLIN_HOME/bin/download-spark.sh

download-spark.sh 腳本只能下載 spark2.4.7, 如果您使用的 kylin 二進(jìn)制包以 spark3 為后綴，您需要從Spark 官方網(wǎng)站下載 spark3.1.1 的二進(jìn)制包。

建議將 spark 二進(jìn)制包解壓后放置在 ${KYLIN_HOME} 目錄下，并重命名為 spark，以避免兼容性問(wèn)題。詳情請(qǐng)查看：Refactor hive and hadoop dependency

如果您自定義配置了 ${SPARK_HOME} 指向環(huán)境中的 spark2.4.7/spark3.1.1，請(qǐng)保證環(huán)境中的 spark 是可以正常提交以及執(zhí)行任務(wù)的。

配置 Mysql 元數(shù)據(jù)

創(chuàng)建數(shù)據(jù)庫(kù)：kylin

Kylin 4.0 使用 Mysql 作為元數(shù)據(jù)存儲(chǔ)，需要在 kylin.properties 中做如下配置：

kylin.metadata.url=kylin_metadata@jdbc,driverClassName=com.mysql.jdbc.Driver,url=jdbc:mysql://192.168.60.10:3306/kylin,username=root,password=123456 kylin.env.zookeeper-connect-string=192.168.60.13

你需要修改其中的 Mysql 用戶名和密碼，以及存儲(chǔ)元數(shù)據(jù)的 database 和 table。并將 mysql jdbc connector mysql-connector-java-5.1.49.jar放在 $KYLIN_HOME/ext 目錄下，沒(méi)有該目錄時(shí)請(qǐng)自行創(chuàng)建。
請(qǐng)參考配置 Mysql 為 Metastore 了解 Mysql 作為 Metastore 的詳細(xì)配置。

CDH6.x環(huán)境配置

# 下載需要的jar包 wget https://cwiki.apache.org/confluence/download/attachments/173081375/hive-exec-1.21.2.3.1.0.0-78.jar?api=v2 wget https://repo1.maven.org/maven2/org/codehaus/woodstox/stax2-api/3.1.4/stax2-api-3.1.4.jar wget https://repo1.maven.org/maven2/commons-configuration/commons-configuration/1.10/commons-configuration-1.10.jar# 進(jìn)入Kylin目錄 cd $KYLIN_HOME# 將準(zhǔn)備的jar包放進(jìn)目錄bin/hadoop3_jars/cdh6下 mkdir -p bin/hadoop3_jars/cdh6 mv hive-exec-1.21.2.3.1.0.0-78.jar stax2-api-3.1.4.jar commons-configuration-1.10.jar kylin/bin/hadoop3_jars/cdh6/# 將Mysql JDBC 驅(qū)動(dòng)放入指定目錄 ext 下 mkdir $KYLIN_HOME/ext mv mysql-connector-java-5.7.33.jar $KYLIN_HOME/ext

檢查運(yùn)行環(huán)境

Kylin 運(yùn)行在 Hadoop 集群上，對(duì)各個(gè)組件的版本、訪問(wèn)權(quán)限及 CLASSPATH 等都有一定的要求，為了避免遇到各種環(huán)境問(wèn)題，您可以運(yùn)行 $KYLIN_HOME/bin/check-env.sh 腳本來(lái)進(jìn)行環(huán)境檢測(cè)，如果您的環(huán)境存在任何的問(wèn)題，腳本將打印出詳細(xì)報(bào)錯(cuò)信息。如果沒(méi)有報(bào)錯(cuò)信息，代表您的環(huán)境適合 Kylin 運(yùn)行。

# 切換到HDFS用戶執(zhí)行檢查 [hdfs@r-wb-15 bin]$ ./check-env.sh Retrieving hadoop conf dir... ...................................................[PASS] KYLIN_HOME is set to /home/kylin Checking hive ...................................................[PASS] Checking hadoop shell ...................................................[PASS] Checking hdfs working dir WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ...................................................[PASS] WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. Checking environment finished successfully. To check again, run 'bin/check-env.sh' manually.

啟動(dòng)Kylin

運(yùn)行 $KYLIN_HOME/bin/kylin.sh start 腳本來(lái)啟動(dòng) Kylin，界面輸出如下：

[hdfs@r-wb-15 kylin]$ bin/kylin.sh start Retrieving hadoop conf dir... ...................................................[PASS] KYLIN_HOME is set to /home/kylin Checking hive ...................................................[PASS] Checking hadoop shell ...................................................[PASS] Checking hdfs working dir WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ...................................................[PASS] WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete.Checking environment finished successfully. To check again, run 'bin/check-env.sh' manually. Retrieving hadoop conf dir... Retrieving Spark dependency... Start replace hadoop jars under /home/kylin/spark/jars. Find platform specific jars:/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/client/hadoop-annotations-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/client/hadoop-auth-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/client/hadoop-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/hadoop-annotations-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/hadoop-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop/hadoop-auth-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-client.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-httpfs.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-native-client.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-native-client-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-httpfs-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-hdfs/hadoop-hdfs-client-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-app-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-core-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-shuffle-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-client-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-api-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-server-web-proxy-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-client-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../hadoop-yarn/hadoop-yarn-server-common-3.0.0-cdh6.3.2.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/htrace-core4-4.2.0-incubating.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/htrace-core4-4.1.0-incubating.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/woodstox-core-5.0.3.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/woodstox-core-5.1.0.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/commons-configuration2-2.1.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/woodstox-core-asl-4.4.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/re2j-1.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/commons-configuration2-2.1.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/stax2-api-3.1.4.jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/../../jars/re2j-1.0.jar , will replace with these jars under /home/kylin/spark/jars. Copy jars from /home/kylin/bin/hadoop3_jars/cdh6 Done hadoop jars replacement under /home/kylin/spark/jars. (Not all processes could be identified, non-owned process infowill not be shown, you would have to be root to see it all.) Start to check whether we need to migrate acl tables Not HBase metadata. Skip check.A new Kylin instance is started by hdfs. To stop it, run 'kylin.sh stop' Check the log at /home/kylin/logs/kylin.log Web UI is at http://r-wb-15:7070/kylin

啟動(dòng)成功可以訪問(wèn)頁(yè)面：http://r-wb-15:7070/kylin

默認(rèn)賬號(hào)密碼（注意大小寫(xiě)區(qū)分）：ADMIN/KYLIN

訪問(wèn)頁(yè)面提示以下頁(yè)面，說(shuō)明啟動(dòng)成功。

Kylin目錄結(jié)構(gòu)·

bin: shell 腳本，用于啟動(dòng)／停止 Kylin，備份／恢復(fù) Kylin 元數(shù)據(jù)，以及一些檢查端口、獲取 Hive/HBase 依賴的方法等；
conf: Hadoop 任務(wù)的 XML 配置文件，這些文件的作用可參考配置頁(yè)面
lib: 供外面應(yīng)用使用的 jar 文件，例如 Hadoop 任務(wù) jar.
meta_backups: 執(zhí)行 bin/metastore.sh backup 后的默認(rèn)的備份目錄;
sample_cube 用于創(chuàng)建樣例 Cube 和表的文件。
spark: 使用kylin腳本下載得到的 spark。
tomcat: 自帶的 tomcat，用于啟動(dòng) Kylin 服務(wù)。
tool: 用于執(zhí)行一些命令行的jar文件。

使用 Kylin

Kylin 啟動(dòng)后您可以通過(guò)瀏覽器 http://<hostname>:7070/kylin 進(jìn)行訪問(wèn)。
其中 <hostname> 為具體的機(jī)器名、IP 地址或域名，默認(rèn)端口為 7070。
初始用戶名和密碼是 ADMIN/KYLIN。
服務(wù)器啟動(dòng)后，您可以通過(guò)查看 $KYLIN_HOME/logs/kylin.log 獲得運(yùn)行時(shí)日志。

停止 Kylin

運(yùn)行 $KYLIN_HOME/bin/kylin.sh stop 腳本來(lái)停止 Kylin，界面輸出如下：

Retrieving hadoop conf dir... KYLIN_HOME is set to /usr/local/apache-kylin-4.0.0-bin Stopping Kylin: 25964 Stopping in progress. Will check after 2 secs again... Kylin with pid 25964 has been stopped.

您可以運(yùn)行 ps -ef | grep kylin 來(lái)查看 Kylin 進(jìn)程是否已停止。

HDFS 目錄結(jié)構(gòu)

? Kylin 會(huì)在 HDFS 上生成文件，默認(rèn)根目錄是 “/kylin/”, 然后會(huì)使用 Kylin 集群的元數(shù)據(jù)表名作為第二層目錄名，默認(rèn)為 “kylin_metadata” (可以在conf/kylin.properties中定制).

通常, /kylin/kylin_metadata 目錄下按照不同的 project 存放數(shù)據(jù)，比如 learn_kylin 項(xiàng)目的數(shù)據(jù)目錄為 /kylin/kylin_metadata/learn_kylin, 該目錄下通常包括以下子目錄：
1.job_tmp: 存放執(zhí)行任務(wù)過(guò)程中生成的臨時(shí)文件。
2.parquet: 存放各個(gè) cube 的 cuboid 文件。
3.table_snapshot: 存放維度表快照。

## 三、使用教程

提前準(zhǔn)備

將數(shù)據(jù)寫(xiě)入Hive表中，供測(cè)試使用

創(chuàng)建hive表

create EXTERNAL TABLE site_base_hive (id string,site_code string,site_name string,audit_code string,culture_code string,licence_code string,webopen_date string,licence_date string,fire_code string,business_status int,stop_business_date string,licence_status int,install_status int,area_code string,police_station string,address string,class_level string,access_operator string,legal_person string,legal_phone string,principal string,principal_phone string,webmaster string,webmaster_phone string,audit_vendor string,charge_system string,charge_sys_version string,longitude float,latitude float,altitude float,safety_num string,ba_terminal_num int,area_size float,is_chain int,del_flag string,creator_by string,create_time string,updator_by string,update_time string,site_name_qp string,site_name_jp string,legal_person_qp string,legal_person_jp string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY'); create EXTERNAL TABLE offline_hive ( id string,checkin_code string,checkin_type int,site_code string,culture_code string,site_name string,area_code string,area string,credential_type string,certificate_code string,nation string,name string,sexcode string,birthday string,issuing_authority string,certificate_valid string,often_address string,face_status string,face_audit_result int,session_id string,terminalid string,terminalip string,terminalname string,onlinetime bigint,offlinetime bigint,mac_address string,scene_photo string,similarity DECIMAL,head_photo string,is_upload int,card_type int,card_no string,illegal_group_id string,insert_time string,update_time string,data_source string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');

從mysql導(dǎo)入數(shù)據(jù)到Hive

sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table site_base \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table site_base_hive \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ # parquet模式下當(dāng)mysql字段類型與hive字段類型不相同時(shí)，需要手動(dòng)指定導(dǎo)入的類型，否則會(huì)報(bào)錯(cuò) --map-column-java webopen_date=String,licence_date=String,stop_business_date=String,create_time=String,update_time=String \ --map-column-hive webopen_date=String,licence_date=String,stop_business_date=String,create_time=String,update_time=String \ -m 1 sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table offline \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table offline_hive \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ --map-column-java insert_time=String,update_time=String \ --map-column-hive insert_time=String,update_time=String \ -m 1

Web頁(yè)面介紹

支持的瀏覽器

Windows: Google Chrome, FireFox

Mac: Google Chrome, FireFox, Safari

登錄系統(tǒng)

創(chuàng)建工程

點(diǎn)擊加號(hào)

輸入項(xiàng)目名稱、項(xiàng)目描述，點(diǎn)擊Submit提交

創(chuàng)建成功

選擇數(shù)據(jù)源

? 雖然 Kylin 使用 SQL 作為查詢接口并利用 Hive 元數(shù)據(jù)，Kylin 不會(huì)讓用戶查詢所有的 hive 表，因?yàn)榈侥壳盀橹顾且粋€(gè)預(yù)構(gòu)建 OLAP(MOLAP) 系統(tǒng)。為了使表在 Kylin 中可用，使用 “Sync” 方法能夠方便地從 Hive 中同步表。

選擇加載數(shù)據(jù)源方式

選擇需要加載的表，點(diǎn)擊Sync

查看同步的數(shù)據(jù)源

創(chuàng)建Model

? 創(chuàng)建 cube 前，需定義一個(gè)數(shù)據(jù)模型。數(shù)據(jù)模型定義了一個(gè)星型（star schema）或雪花（snowflake schema）模型。一個(gè)模型可以被多個(gè) cube 使用。

點(diǎn)擊頂部的 Model ，然后點(diǎn)擊 Models 標(biāo)簽。點(diǎn)擊 +New 按鈕，在下拉框中選擇 New Model。

輸入 model 的名字和可選的描述，點(diǎn)擊Next

在 Fact Table 中，為模型選擇事實(shí)表。

【可選】點(diǎn)擊 Add Lookup Table 按鈕添加一個(gè) lookup 表。選擇表名和關(guān)聯(lián)類型（內(nèi)連接或左連接）

點(diǎn)擊 New Join Condition 按鈕，左邊選擇事實(shí)表的外鍵，右邊選擇 lookup 表的主鍵。如果有多于一個(gè) join 列重復(fù)執(zhí)行。

點(diǎn)擊 “OK”，重復(fù)2，3步來(lái)添加更多的 lookup 表。完成后，點(diǎn)擊 “Next”。

Dimensions 頁(yè)面允許選擇在子 cube 中用作維度的列(統(tǒng)計(jì)分析溫度字段)，然后點(diǎn)擊 Columns 列，在下拉框中選擇需要的列。

點(diǎn)擊 “Next” 到達(dá) “Measures” 頁(yè)面，選擇作為 measure 的列，其只能從事實(shí)表中選擇。

這里我沒(méi)有選擇，我只想統(tǒng)計(jì)數(shù)量，沒(méi)有求和等其他操作

點(diǎn)擊 “Next” 到達(dá) “Settings” 頁(yè)面，如果事實(shí)表中的數(shù)據(jù)每日增長(zhǎng)，選擇 Partition Date Column 中相應(yīng)的日期列以及日期格式，否則就將其留白。

【可選】選擇是否需要 “time of the day” 列，默認(rèn)情況下為 No。如果選擇 Yes, 選擇 Partition Time Column 中相應(yīng)的 time 列以及 time 格式

【可選】如果在從 hive 抽取數(shù)據(jù)時(shí)候想做一些篩選，可以在 Filter 中輸入篩選條件。

點(diǎn)擊 Save 然后選擇 Yes 來(lái)保存 data model。創(chuàng)建完成，data model 就會(huì)列在左邊 Models 列表中。

創(chuàng)建完成可以看到Models

創(chuàng)建Cube

創(chuàng)建完 data model，可以開(kāi)始創(chuàng)建 cube。

點(diǎn)擊頂部 Model，然后點(diǎn)擊 Models 標(biāo)簽。點(diǎn)擊 +New 按鈕，在下拉框中選擇 New Cube。

填寫(xiě)Cube 信息，選擇 data model，輸入 cube 名字；點(diǎn)擊 Next 進(jìn)行下一步

cube 名字可以使用字母，數(shù)字和下劃線（空格不允許）。Notification Email List 是運(yùn)用來(lái)通知job執(zhí)行成功或失敗情況的郵箱列表。Notification Events 是觸發(fā)事件的狀態(tài)。

添加維度

1.添加真正的維度字段(將來(lái)會(huì)影響 Cuboid 的個(gè)數(shù),并且只能從 model 維度字段里面選擇)

2.后續(xù)統(tǒng)計(jì)條件字段只能從維度設(shè)置字段進(jìn)行查詢

點(diǎn)擊Add Dimension

在彈窗中顯示的事實(shí)表和 lookup 表里勾選輸入需要的列。Lookup 表的列有2個(gè)選項(xiàng)：“Normal” 和 “Derived”（默認(rèn)）。“Normal” 添加一個(gè)普通獨(dú)立的維度列，“Derived” 添加一個(gè) derived 維度，derived 維度不會(huì)計(jì)算入 cube，將由事實(shí)表的外鍵推算出。（推薦使用Normal）

添加度量值

點(diǎn)擊 +Measure 按鈕添加一個(gè)新的度量。

根據(jù)它的表達(dá)式共有7種不同類型的度量：SUM、MAX、MIN、COUNT、COUNT_DISTINCT TOP_N 和 PERCENTILE。請(qǐng)合理選擇 COUNT_DISTINCT 和 TOP_N 返回類型，它與 cube 的大小相關(guān)。

這里度量值默認(rèn)有一個(gè)count(*)，其他的可自行選擇。注意：這里的度量值只能從創(chuàng)建模型選擇的字段中進(jìn)行選擇。

更新配置

這一步驟是為增量構(gòu)建 cube 而設(shè)計(jì)的。

Auto Merge Thresholds: 自動(dòng)合并小的 segments 到中等甚至更大的 segment。如果不想自動(dòng)合并，刪除默認(rèn)2個(gè)選項(xiàng)。

Volatile Range: 默認(rèn)為0，會(huì)自動(dòng)合并所有可能的 cube segments，或者用 ‘Auto Merge’ 將不會(huì)合并最新的 [Volatile Range] 天的 cube segments。

Retention Threshold: 只會(huì)保存 cube 過(guò)去幾天的 segment，舊的 segment 將會(huì)自動(dòng)從頭部刪除；0表示不啟用這個(gè)功能。

Partition Start Date: cube 的開(kāi)始日期.

高級(jí)設(shè)置

Aggregation Groups: Cube 中的維度可以劃分到多個(gè)聚合組中。默認(rèn) kylin 會(huì)把所有維度放在一個(gè)聚合組，當(dāng)維度較多時(shí)，產(chǎn)生的組合數(shù)可能是巨大的，會(huì)造成 Cube 爆炸；如果你很好的了解你的查詢模式，那么你可以創(chuàng)建多個(gè)聚合組。在每個(gè)聚合組內(nèi)，使用 “Mandatory Dimensions”, “Hierarchy Dimensions” 和 “Joint Dimensions” 來(lái)進(jìn)一步優(yōu)化維度組合。

Mandatory Dimensions: 必要維度，用于總是出現(xiàn)的維度。例如，如果你的查詢中總是會(huì)帶有 “ORDER_DATE” 做為 group by 或過(guò)濾條件, 那么它可以被聲明為必要維度。這樣一來(lái)，所有不含此維度的 cuboid 就可以被跳過(guò)計(jì)算。

Hierarchy Dimensions: 層級(jí)維度，例如 “國(guó)家” -> “省” -> “市” 是一個(gè)層級(jí)；不符合此層級(jí)關(guān)系的 cuboid 可以被跳過(guò)計(jì)算，例如 [“省”], [“市”]. 定義層級(jí)維度時(shí)，將父級(jí)別維度放在子維度的左邊。

Joint Dimensions:聯(lián)合維度，有些維度往往一起出現(xiàn)，或者它們的基數(shù)非常接近（有1:1映射關(guān)系）。例如 “user_id” 和 “email”。把多個(gè)維度定義為組合關(guān)系后，所有不符合此關(guān)系的 cuboids 會(huì)被跳過(guò)計(jì)算。

關(guān)于更多維度優(yōu)化，請(qǐng)閱讀這個(gè)博客: 新的聚合組

Rowkeys: 是由維度編碼值組成。

你可以拖拽維度列去調(diào)整其在 rowkey 中位置; 位于rowkey前面的列，將可以用來(lái)大幅縮小查詢的范圍。通常建議將 mandantory 維度放在開(kāi)頭, 然后是在過(guò)濾 ( where 條件)中起到很大作用的維度；如果多個(gè)列都會(huì)被用于過(guò)濾，將高基數(shù)的維度（如 user_id）放在低基數(shù)的維度（如 age）的前面。

此外，你還可以在這里指定使用某一列作為 shardBy 列，kylin4.0 會(huì)根據(jù) shardBy 列對(duì)存儲(chǔ)文件進(jìn)行分片，分片能夠使查詢引擎跳過(guò)不必要的文件，提高查詢性能，最好選擇高基列并且會(huì)在多個(gè) cuboid 中出現(xiàn)的列作為 shardBy 列。

Mandatory Cuboids: 維度組合白名單。確保你想要構(gòu)建的 cuboid 能被構(gòu)建。

Cube Engine: cube 構(gòu)建引擎。Spark構(gòu)建。

這里我們使用默認(rèn)。

重寫(xiě)配置

? Kylin 允許在 Cube 級(jí)別覆蓋部分 kylin.properties 中的配置，你可以在這里定義覆蓋的屬性。如果你沒(méi)有要配置的，點(diǎn)擊 Next 按鈕。

概覽 & 保存

你可以概覽你的 cube 并返回之前的步驟進(jìn)行修改。點(diǎn)擊 Save 按鈕完成 cube 創(chuàng)建。

可以返回查看Cube信息

Cube構(gòu)建與監(jiān)控

在 Models 頁(yè)面中，點(diǎn)擊 cube 欄右側(cè)的 Action 下拉按鈕并選擇 Build 操作。

選擇后會(huì)出現(xiàn)一個(gè)彈出窗口，點(diǎn)擊 Start Date 或者 End Date 輸入框選擇這個(gè)增量 cube 構(gòu)建的起始日期。

上面如果沒(méi)有選擇分區(qū)表的話，這里不會(huì)提示選擇日期

點(diǎn)擊 Submit 提交請(qǐng)求。成功之后，你將會(huì)在 Monitor 頁(yè)面看到新建的 job和進(jìn)度。

新建的 job 是 “pending” 狀態(tài)；一會(huì)兒，它就會(huì)開(kāi)始運(yùn)行并且你可以通過(guò)刷新 web 頁(yè)面或者點(diǎn)擊刷新按鈕來(lái)查看進(jìn)度。

等待 job 完成。期間如要放棄這個(gè) job ，點(diǎn)擊 Actions -> Discard 按鈕。

查看Build進(jìn)度

計(jì)算中查看日志，點(diǎn)擊Job

彈出Spark UI新頁(yè)面，可以看到計(jì)算步驟

等到 job 100%完成，cube 的狀態(tài)就會(huì)變?yōu)?“Ready”, 意味著它已經(jīng)準(zhǔn)備好進(jìn)行 SQL 查詢。在 Model 頁(yè)，找到 cube，然后點(diǎn)擊 cube 名展開(kāi)消息，在 “Storage” 標(biāo)簽下，列出 cube segments。每一個(gè) segment 都有 start/end 時(shí)間；Parquet 文件相關(guān)的信息也會(huì)列出。

WEB UI查詢SQL

進(jìn)入Insight輸入需要執(zhí)行的統(tǒng)計(jì)SQL，進(jìn)行查詢。

這里查詢用的字段就是我們之前設(shè)置的維度字段，如果使用不設(shè)置在維度中的字段，會(huì)提示報(bào)錯(cuò)，找不到該字段

三、SSB數(shù)據(jù)實(shí)際測(cè)試

生成SBB基準(zhǔn)測(cè)試數(shù)據(jù)

SSB基準(zhǔn)測(cè)試包括

1個(gè)事實(shí)表：lineorder
4個(gè)維度表：customer，part，dwdate，supplier
13條標(biāo)準(zhǔn)SQL查詢測(cè)試語(yǔ)句：統(tǒng)計(jì)查詢、多表關(guān)聯(lián)、sum、復(fù)雜條件、group by、order by等組合方式。

下載SSB數(shù)據(jù)生成工具：http://www.itpub.net/forum.php?mod=attachment&aid=NzA1NTM0fDFiOGIzOWZifDE0NDc0ODQ2MzZ8MHww

環(huán)境需要gcc

yum install -y gcc

將工具上傳到Linux服務(wù)器并解壓

[root@r-wb-15 ~]# ll -rw-r--r--. 1 root root 102995 3月 6 14:17 dbgen.zip [root@r-wb-15 ~]# unzip dbgen.zip [root@r-wb-15 ~]# cd dbgen [root@r-wb-15 dbgen]# make

查看生成的dbgen是否可用

[root@r-wb-15 dbgen]# ./dbgen -h SSBM (Star Schema Benchmark) Population Generator (Version 1.0.0) Copyright Transaction Processing Performance Council 1994 - 2000 USAGE: dbgen [-{vfFD}] [-O {fhmsv}][-T {pcsdla}][-s <scale>][-C <procs>][-S <step>] dbgen [-v] [-O {dfhmr}] [-s <scale>] [-U <updates>] [-r <percent>]

生成數(shù)據(jù)文件

# 利用dbgen生成示例數(shù)據(jù)，-T指定表，-s指定數(shù)據(jù)放大系數(shù) ./dbgen -s 8 -T c # CUSTOMER表 ./dbgen -s 24 -T p # PART表 ./dbgen -s 8 -T s # SUPPLIER表 ./dbgen -s 1 -T d # DATE_DIM表 ./dbgen -s 2 -T l # LINEORDER表

創(chuàng)建表結(jié)構(gòu)

CREATE TABLE CUSTOMER ( C_CUSTKEY INTEGER,C_NAME VARCHAR(25) NOT NULL,C_ADDRESS VARCHAR(40) NOT NULL,C_CITY VARCHAR(10) NOT NULL,C_NATION VARCHAR(15) NOT NULL,C_REGION VARCHAR(12) NOT NULL,C_PHONE VARCHAR(15) NOT NULL,C_MKTSEGMENT VARCHAR(10) NOT NULL);CREATE TABLE DATES ( D_DATEKEY INTEGER,D_DATE VARCHAR(18) NOT NULL,D_DAYOFWEEK VARCHAR(18) NOT NULL,D_MONTH VARCHAR(9) NOT NULL,D_YEAR INTEGER NOT NULL,D_YEARMONTHNUM INTEGER,D_YEARMONTH VARCHAR(7) NOT NULL,D_DAYNUMINWEEK INTEGER,D_DAYNUMINMONTH INTEGER,D_DAYNUMINYEAR INTEGER,D_MONTHNUMINYEAR INTEGER,D_WEEKNUMINYEAR INTEGER,D_SELLINGSEASON VARCHAR(12) NOT NULL,D_LASTDAYINWEEKFL INTEGER,D_LASTDAYINMONTHFL INTEGER,D_HOLIDAYFL INTEGER,D_WEEKDAYFL INTEGER);CREATE TABLE PART ( P_PARTKEY INTEGER,P_NAME VARCHAR(22) NOT NULL,P_MFGR VARCHAR(6) NOT NULL,P_CATEGORY VARCHAR(7) NOT NULL,P_BRAND VARCHAR(9) NOT NULL,P_COLOR VARCHAR(11) NOT NULL,P_TYPE VARCHAR(25) NOT NULL,P_SIZE INTEGER NOT NULL,P_CONTAINER VARCHAR(10) NOT NULL);CREATE TABLE SUPPLIER ( S_SUPPKEY INTEGER,S_NAME VARCHAR(25) NOT NULL,S_ADDRESS VARCHAR(25) NOT NULL,S_CITY VARCHAR(10) NOT NULL,S_NATION VARCHAR(15) NOT NULL,S_REGION VARCHAR(12) NOT NULL,S_PHONE VARCHAR(15) NOT NULL);CREATE TABLE LINEORDER ( LO_ORDERKEY BIGINT,LO_LINENUMBER BIGINT,LO_CUSTKEY INTEGER NOT NULL,LO_PARTKEY INTEGER NOT NULL,LO_SUPPKEY INTEGER NOT NULL,LO_ORDERDATE INTEGER NOT NULL,LO_ORDERPRIOTITY VARCHAR(15) NOT NULL,LO_SHIPPRIOTITY INTEGER,LO_QUANTITY BIGINT,LO_EXTENDEDPRICE BIGINT,LO_ORDTOTALPRICE BIGINT,LO_DISCOUNT BIGINT,LO_REVENUE BIGINT,LO_SUPPLYCOST BIGINT,LO_TAX BIGINT,LO_COMMITDATE INTEGER NOT NULL,LO_SHIPMODE VARCHAR(10) NOT NULL);

導(dǎo)入數(shù)據(jù)

導(dǎo)入之前生成的數(shù)據(jù)

set autocommit=off; load data infile '/opt/customer.tbl' into table CUSTOMER fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/lineorder.tbl' into table LINEORDER fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/supplier.tbl' into table SUPPLIER fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/part.tbl' into table PART fields terminated by '|' lines terminated by '| '; commit;load data infile '/opt/date.tbl' into table DATES fields terminated by '|' lines terminated by '| '; commit;

Hive創(chuàng)建相對(duì)應(yīng)的表

create EXTERNAL TABLE CUSTOMER (C_CUSTKEY int,C_NAME string,C_ADDRESS string,C_CITY string,C_NATION string,C_REGION string,C_PHONE string,C_MKTSEGMENT string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE DATES (D_DATEKEY int,D_DATE string,D_DAYOFWEEK string,D_MONTH string,D_YEAR int,D_YEARMONTHNUM int,D_YEARMONTH string,D_DAYNUMINWEEK int,D_DAYNUMINMONTH int,D_DAYNUMINYEAR int,D_MONTHNUMINYEAR int,D_WEEKNUMINYEAR int,D_SELLINGSEASON string,D_LASTDAYINWEEKFL int,D_LASTDAYINMONTHFL int,D_HOLIDAYFL int,D_WEEKDAYFL int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE LINEORDER (LO_ORDERKEY bigint,LO_LINENUMBER bigint,LO_CUSTKEY int,LO_PARTKEY int,LO_SUPPKEY int,LO_ORDERDATE int,LO_ORDERPRIOTITY string,LO_SHIPPRIOTITY int,LO_QUANTITY bigint,LO_EXTENDEDPRICE bigint,LO_ORDTOTALPRICE bigint,LO_DISCOUNT bigint,LO_REVENUE bigint,LO_SUPPLYCOST bigint,LO_TAX bigint,LO_COMMITDATE int,LO_SHIPMODE string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE PART (P_PARTKEY int,P_NAME string,P_MFGR string,P_CATEGORY string,P_BRAND string,P_COLOR string,P_TYPE string,P_SIZE int,P_CONTAINER string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');create EXTERNAL TABLE SUPPLIER (S_SUPPKEY int,S_NAME string,S_ADDRESS string,S_CITY string,S_NATION string,S_REGION string,S_PHONE string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'STORED AS parquet TBLPROPERTIES('parquet.compression'='SNAPPY');

Sqoop 同步 Mysql數(shù)據(jù)到Hive

sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table SUPPLIER \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table SUPPLIER \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table CUSTOMER \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table CUSTOMER \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table DATES \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table DATES \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table LINEORDER \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table LINEORDER \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1sqoop import \ --connect jdbc:mysql://192.168.60.10:3306/test_data \ --username root \ --password 123456 \ --table PART \ --delete-target-dir \ --hive-import \ --hive-database test_data \ --hive-table PART \ --hive-overwrite \ --fields-terminated-by "\t" \ --as-parquetfile \ -m 1

標(biāo)準(zhǔn)測(cè)試SQL

PROMPT Q1.1 SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS REVENUE FROM LINEORDER, DATES WHERE LO_ORDERDATE = D_DATEKEY AND D_YEAR = 1993 AND LO_DISCOUNT BETWEEN 1 AND 3 AND LO_QUANTITY < 25;PROMPT Q1.2 SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS REVENUE FROM LINEORDER, DATES WHERE LO_ORDERDATE = D_DATEKEY AND D_YEARMONTH = 'Jan1994' AND LO_DISCOUNT BETWEEN 4 AND 6 AND LO_QUANTITY BETWEEN 26 AND 35;PROMPT Q1.3 SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS REVENUE FROM LINEORDER, DATES WHERE LO_ORDERDATE = D_DATEKEY AND D_WEEKNUMINYEAR = 6 AND D_YEAR = 1994 AND LO_DISCOUNT BETWEEN 5 AND 7 AND LO_QUANTITY BETWEEN 26 AND 35;PROMPT Q2.1 SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;PROMPT Q2.2 SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_BRAND BETWEEN 'MFGR#2221' AND 'MFGR#2228' AND S_REGION = 'ASIA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;PROMPT Q2.3 SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_BRAND= 'MFGR#2239' AND S_REGION = 'EUROPE' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;PROMPT Q3.1 SELECT C_NATION, S_NATION, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION = 'ASIA' AND S_REGION = 'ASIA' AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_NATION, S_NATION, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q3.2 SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND C_NATION = 'UNITED STATES' AND S_NATION = 'UNITED STATES' AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q3.3 SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND (C_CITY='UNITED KI1' OR C_CITY='UNITED KI5') AND (S_CITY='UNITED KI1' OR S_CITY='UNITED KI5') AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q3.4 SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATES WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND (C_CITY='UNITED KI1' OR C_CITY='UNITED KI5') AND (S_CITY='UNITED KI1' OR S_CITY='UNITED KI5') AND D_YEARMONTH = 'Dec1997' GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC;PROMPT Q4.1 SELECT D_YEAR, C_NATION, SUM(LO_REVENUE - LO_SUPPLYCOST) AS PROFIT FROM DATES, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION = 'AMERICA' AND S_REGION = 'AMERICA' AND (P_MFGR = 'MFGR#1' OR P_MFGR = 'MFGR#2') GROUP BY D_YEAR, C_NATION ORDER BY D_YEAR, C_NATION;PROMPT Q4.2 SELECT D_YEAR, S_NATION, P_CATEGORY, SUM(LO_REVENUE - LO_SUPPLYCOST) AS PROFIT FROM DATES, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION = 'AMERICA' AND S_REGION = 'AMERICA' AND (D_YEAR = 1997 OR D_YEAR = 1998) AND (P_MFGR = 'MFGR#1' OR P_MFGR = 'MFGR#2') GROUP BY D_YEAR, S_NATION, P_CATEGORY ORDER BY D_YEAR, S_NATION, P_CATEGORY;PROMPT Q4.3 SELECT D_YEAR, S_CITY, P_BRAND, SUM(LO_REVENUE - LO_SUPPLYCOST) AS PROFIT FROM DATES, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND S_NATION = 'UNITED STATES' AND (D_YEAR = 1997 OR D_YEAR = 1998) AND P_CATEGORY = 'MFGR#14' GROUP BY D_YEAR, S_CITY, P_BRAND ORDER BY D_YEAR, S_CITY, P_BRAND;

這里我們先用這個(gè)sql做測(cè)試

SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;Kylin不支持笛卡爾積查詢，我們轉(zhuǎn)換為JOIN查詢 SELECT SUM(LO_REVENUE) AS SUM1, D_YEAR, P_BRAND FROM LINEORDER JOIN DATES ON LO_ORDERDATE = D_DATEKEY JOIN PART ON LO_PARTKEY = P_PARTKEY JOIN SUPPLIER ON LO_SUPPKEY = S_SUPPKEY WHERE P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;

Kylin不支持笛卡爾積查詢，查詢報(bào)錯(cuò)如下

Cartesian Join is not supported. while executing SQL: "select * from (SELECT SUM(LO_REVENUE), D_YEAR, P_BRAND FROM LINEORDER, DATES, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND) limit 50000"

Kylin創(chuàng)建Model

創(chuàng)建CUBE

一直Next直至完成

build CUBE

Build 完成

Build 構(gòu)建共花了156分鐘

數(shù)據(jù)圖表展示及導(dǎo)出

Mysql查詢、Hive查詢、Kylin查詢對(duì)比

查詢類型耗時(shí)

Mysql	超時(shí)
Kylin	1秒以內(nèi)
Hive	74.237秒

Mysql查詢超時(shí)
Kylin查詢秒級(jí)響應(yīng)
Hive查詢74秒

四、Kylin使用注意事項(xiàng)

只能按照構(gòu)建Model的連接條件寫(xiě)SQL查詢

? 在創(chuàng)建Model時(shí)候我們會(huì)指定表之間的關(guān)聯(lián)關(guān)系，這個(gè)時(shí)候指定的關(guān)系，在后面查詢SQL也只能查詢這種關(guān)系的SQL。

如果不按照設(shè)定的join類型，會(huì)提示錯(cuò)誤

示例：改成LEFT JOIN去查詢，無(wú)法返回結(jié)果

只能按照構(gòu)建 Cube 時(shí)選擇的維度字段分組統(tǒng)計(jì)

分組統(tǒng)計(jì)、查詢字段必須在創(chuàng)建Cube時(shí)選擇上維度，否則無(wú)法當(dāng)做條件查詢。

示例：我們使用未在維度中字段查詢，提示報(bào)錯(cuò)

只能統(tǒng)計(jì)構(gòu)建Cube 時(shí)選擇的度量值字段

在統(tǒng)計(jì)時(shí)候只能統(tǒng)計(jì)添加度量值字段（默認(rèn)會(huì)有一個(gè)count(*)來(lái)統(tǒng)計(jì)數(shù)量。）

示例：統(tǒng)計(jì)不在度量值的字段會(huì)提示報(bào)錯(cuò)

五、Kylin每日自動(dòng)構(gòu)建Cube

? Kylin 提供了 Restful API，因次我們可以將構(gòu)建 cube 的命令寫(xiě)到腳本中，將腳本交給
azkaban 或者 oozie 這樣的調(diào)度工具，以實(shí)現(xiàn)定時(shí)調(diào)度的功能。

認(rèn)證密碼加密方式：

${Authorization}計(jì)算方式: Base64($username:$password)Authorization: Basic ${Authorization} Authorization: Basic QURNSU46S1lMSU4=

kylin_cube_build.sh 腳本如下:

#!/bin/bash #從第 1 個(gè)參數(shù)獲取 cube_name cube_name=$1 #從第 2 個(gè)參數(shù)獲取構(gòu)建 cube 時(shí)間 if [ -n "$2" ] then do_date=$2 else do_date=`date -d '-1 day' +%F` fi #獲取執(zhí)行時(shí)間的 00:00:00 時(shí)間戳(0 時(shí)區(qū)) start_date_unix=`date -d "$do_date 08:00:00" +%s` #秒級(jí)時(shí)間戳變毫秒級(jí) start_date=$(($start_date_unix*1000)) #獲取執(zhí)行時(shí)間的 24:00 的時(shí)間戳 stop_date=$(($start_date+86400000)) curl -X PUT -H "Authorization: Basic QURNSU46S1lMSU4=" -H 'Content-Type: application/json' -d '{"startTime":'$start_date',"endTime":'$stop_date', "buildType":"BUILD"}' http://192.168.60.15:7070/kylin/api/cubes/$cube_name/build

注：我們沒(méi)有修改 kylin 的時(shí)區(qū)，因此 kylin 內(nèi)部只識(shí)別 0 時(shí)區(qū)的時(shí)間，0 時(shí)區(qū)的 0 點(diǎn)是

東 8 區(qū)的早上 8 點(diǎn)，因此我們?cè)谀_本里要寫(xiě)$do_date 08:00:00 來(lái)彌補(bǔ)時(shí)差問(wèn)題。

六、BI工具集成

可以與 Kylin 結(jié)合使用的可視化工具很多，例如：

ODBC：與 Tableau、Excel、PowerBI 等工具集成

JDBC：與 Saiku、BIRT 等 Java 工具集成

RestAPI：與 JavaScript、Web 網(wǎng)頁(yè)集成

Kylin 開(kāi)發(fā)團(tuán)隊(duì)還貢獻(xiàn)了 Zepplin的插件，也可以使用 Zepplin 來(lái)訪問(wèn) Kylin 服務(wù)。

JDBC

新建項(xiàng)目并導(dǎo)入依賴

<dependency><groupId>org.apache.kylin</groupId><artifactId>kylin-jdbc</artifactId><version>4.0.1</version> </dependency>

Java代碼

import java.sql.*;/*** @author Jast* @description* @date 2022-03-07 11:22*/ public class KylinTest {public static void main(String[] args) throws Exception {//Kylin_JDBC 驅(qū)動(dòng)String KYLIN_DRIVER = "org.apache.kylin.jdbc.Driver";//Kylin_URLString KYLIN_URL ="jdbc:kylin://192.168.60.15:7070/FirstProject";//Kylin 的用戶名String KYLIN_USER = "ADMIN";//Kylin 的密碼String KYLIN_PASSWD = "KYLIN";//添加驅(qū)動(dòng)信息Class.forName(KYLIN_DRIVER);//獲取連接Connection connection =DriverManager.getConnection(KYLIN_URL, KYLIN_USER, KYLIN_PASSWD);//預(yù)編譯 SQLPreparedStatement ps = connection.prepareStatement("SELECT SUM(LO_REVENUE) AS SUM1, D_YEAR, P_BRAND FROM LINEORDER JOIN DATES ON LO_ORDERDATE = D_DATEKEY JOIN PART ON LO_PARTKEY = P_PARTKEY JOIN SUPPLIER ON LO_SUPPKEY = S_SUPPKEY WHERE P_CATEGORY = 'MFGR#12' AND S_REGION = 'AMERICA' GROUP BY D_YEAR, P_BRAND ORDER BY D_YEAR, P_BRAND;");//執(zhí)行查詢ResultSet resultSet = ps.executeQuery();//遍歷打印while (resultSet.next()) {System.out.println(resultSet.getString(1) + ":" + resultSet.getDouble(2));}} }

Zepplin

下載地址：https://zeppelin.apache.org/download.html

安裝與啟動(dòng)

下載

這個(gè)安裝包較大，下載的這個(gè)版本1.6G

wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz --no-check-certificate

將zeppelin-0.10.1.tar.gz上傳到Linux服務(wù)器

解壓、重命名

tar -zxvf zeppelin-0.10.1-bin-all.tgz mv zeppelin-0.10.1-bin-all zeppelin

修改啟動(dòng)參數(shù)

修改文件zeppelin-site.xml

mv zeppelin-site.xml.template zeppelin-site.xml

修改前：

<property><name>zeppelin.server.addr</name><value>127.0.0.1</value><description>Server binding address</description> </property><property><name>zeppelin.server.port</name><value>8080</value><description>Server port.</description> </property>

修改后

<property><name>zeppelin.server.addr</name><value>0.0.0.0</value><description>Server binding address</description> </property><property><name>zeppelin.server.port</name><value>17890</value><description>Server port.</description> </property>

啟動(dòng)

functions.sh stop-interpreter.sh zeppelin.sh [root@r-wb-15 zeppelin]# bin/zeppelin-daemon.sh start Please specify HADOOP_CONF_DIR if USE_HADOOP is true Log dir doesn't exist, create /root/zeppelin/logs Pid dir doesn't exist, create /root/zeppelin/run Zeppelin start [ OK ]

訪問(wèn)

訪問(wèn)地址http://192.168.60.15:17890/

配置Kylin

點(diǎn)擊右上角 anonymous 選擇 Interpreter

搜索Kylin并配置基本信息

使用Zepplin查詢Kylin

點(diǎn)擊Notebook->Create new note

填寫(xiě)Note Name和Default Interpreter

如果上面Default Interpreter沒(méi)有選擇默認(rèn)的為Kylin，每次輸入指定的SQL需要在前面加上%kylin

查詢Kylin

總結(jié)

以上是生活随笔為你收集整理的Apache Kylin从入门到精通的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： HugeGraphServer 部署安装
下一篇： Vim winmanager文件浏览自动