基于mondrian的多维分析系统
?
0 術(shù)語與約束
1) ?Extraction-Transformation-Loading 是對OLTP數(shù)據(jù)進(jìn)行抽取,轉(zhuǎn)換,裝載的過程(以下皆簡稱ETL)
2) 文檔的說明均按照ETL→DW→CUBE→presentation
1 ETL相關(guān)
1.1維度表
1.1.1時間維度
1) 說明:該維度記錄了每天的時間,粒度最高精確到日,并可分周,月,年等粒度.
2) 對應(yīng)表:tbl_dimdate
3) 對應(yīng)過程: pro_supportdw_dimdate
4) 是否公用:是
5) 說明:此維度可建Hierarchy(層),見下圖:
1.1.2設(shè)備維度
1) 說明:該維度記錄了的設(shè)備信息. 并可分品牌,機型等粒度.
2) 對應(yīng)表: tbl_dimdevice
3) 對應(yīng)過程: pro_supportdw_dimdevice
4) 是否公用:否
5) 說明:此維度可建Hierarchy(層),見下圖:
?
?
1.1.3地域維度
1) 說明:該維度記錄了的地域信息. 并可分國家,省,區(qū)等粒度.
2) 對應(yīng)表: tbl_dimgeography
3) 對應(yīng)過程: 無,必要時手動加入地區(qū)數(shù)據(jù)
4) 是否公用:否
5) 說明:此維度無Hierarchy(層) ,見下圖:
?
1.1.4分辨率維度
1) 說明:該維度記錄了分辨率的信息.
2) 對應(yīng)表: tbl_dimresolution
3) 對應(yīng)過程: pro_supportdw_dimresolution
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.5操作系統(tǒng)維度
1) 說明:該維度記錄了的操作系統(tǒng)的信息.
2) 對應(yīng)表: tbl_dimos
3) 對應(yīng)過程: pro_supportdw_dimos
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.6網(wǎng)絡(luò)類型維度
1) 說明:該維度記錄了網(wǎng)絡(luò)類型的信息.
2) 對應(yīng)表: tbl_dimnetworktype
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.7運營商維度
1) 說明:該維度記錄了運營商類型的信息.
2) 對應(yīng)表: tbl_dimoperator
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用:否
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.8系統(tǒng)維度
1) 說明:該維度記錄了的系統(tǒng)(類似項目 market[市場],桌面[LAU])信息)的信息.
2) 對應(yīng)表: tbl_dimsystem
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.9包維度
1) 說明:該維度記錄了包的信息.
2) 對應(yīng)表: tbl_cms_apk_package_ref
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù),來源于tbl_cms_apk_package(需做數(shù)據(jù)同步)
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.10廠商維度
1) 說明:該維度記錄了廠商的信息.
2) 對應(yīng)表: tbl_user
3) 對應(yīng)過程: 無
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.11系統(tǒng)版本維度
1) 說明:該維度記錄了系統(tǒng)的版本信息.
2) 對應(yīng)表: tbl_dimappversion
3) 對應(yīng)過程: pro_supportdw_dimappversion
4) 是否公用:是
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.12廣告資源維度
1) 說明:該維度記錄了資源或則廣告的信息.
2) 對應(yīng)表: tbl_dimresource
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù),來源于tbl_resource (需做數(shù)據(jù)同步)
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.13廣告資源區(qū)分維度
1) 說明:該維度記錄了資源或廣告區(qū)分的信息.
2) 對應(yīng)表: tbl_dimadres_type
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.14廣告資源新舊區(qū)分維度
1) 說明:該維度記錄了資源或廣告區(qū)分的信息.
2) 對應(yīng)表: tbl_dimnewold
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.15系統(tǒng)類型維度
1) 說明:該維度記錄了系統(tǒng)子類型(類似airpush類型,uubao類型)的信息
2) 對應(yīng)表: tbl_dimsystemtype
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
1.1.16系統(tǒng)來源維度
1) 說明:該維度記錄了系統(tǒng)的來源類型(來源類似廣告資源,人工采編)的信息
2) 對應(yīng)表: tbl_dimresourcetype
3) 對應(yīng)過程: 無,手動維護(hù)數(shù)據(jù)
4) 是否公用: 否,廣告資源模型獨有
5) 說明:此維度無Hierarchy(層),僅有Level(級別)
?
1.2事實表與measure(度量)
1.2.1 Market事實表與measure(度量)
1.2.1.1 market事實表
1) ?TBL_FACTMARKET 該表為market事實表,含有的指標(biāo)有新增,獨立用戶,啟動次數(shù),留存等.維度精確到IMEI
2) ?TBL_FACTMARKET_FIN該表為維度精確到APK_ID
1.2.1.2 market measure(度量)
1) 新增: Market新增用戶數(shù)量統(tǒng)計
2) 獨立: Market獨立用戶數(shù)量統(tǒng)計
3) 啟動: Market啟動量統(tǒng)計
4) 隔1天market用戶留存,此為postUpdate
5) 隔7天market用戶留存,此為postUpdate
6) 隔15天market用戶留存,此為postUpdate
7) 隔21天market用戶留存,此為postUpdate
8) 隔30天market用戶留存,此為postUpdate
9) 周留存率
10) 月留存率
1.2.2 廣告資源事實表與measure(度量)
1.2.2.1 廣告資源事實表
1) ?TBL_FACTADRES該表為廣告資源事實表,含有的指標(biāo)有接收,閱讀,下載,下載完成,安裝等.維度精確到IMEI
2) ?TBL_FACTADRES_FIN該表為廣告資源事實表,含有的指標(biāo)有,閱讀,點擊,下載,下載完成,安裝等.維度精確到APK_ID
1.2.2.2 廣告資源measure(度量)
1) 接收: 廣告資源的接收量統(tǒng)計
2) 閱讀量: 廣告資源的閱讀量統(tǒng)計
3) 下載量: 廣告資源的下載量統(tǒng)計
4) 下載完成量: 廣告資源的下載完成量統(tǒng)計
5) 安裝量: 廣告資源的安裝量統(tǒng)計
1.3 ETL
1.3.1 Market模型
1) pro_supportdw_factmarketmarket2.0以上事實表抽取
2) pro_support_oldfactmarketmarket1.2版本事實表抽取(含airpush)
3) pro_supportdw_loadfactmarketmarket事實表抽取匯總(聚合至apk_id維度)
4) pro_supportdw_preservemarket2.0留存抽取 (此為PostUpdate)
1.3.2 廣告資源模型
1) pro_supportdw_factadres 廣告資源事實表抽取
1.3.3 廠商模型
1)? pro_supportdw_loadaggrmarket 此為market模型和廣告資源模型的匯集,維度到apk_id
1.4 ETL調(diào)度
1.4.1 維度表job
1) ?Job對應(yīng)過程:pro_supportDW_Dim_jobs
2)? 包含維度表過程如下:
pro_supportdw_dimdevice(sysdate);--設(shè)備維度(設(shè)計品牌機型)
pro_supportdw_dimos(sysdate); ?--操作系統(tǒng)維度
pro_supportdw_dimresolution(SYSDATE);--分辨率維度
pro_new_user_install(SYSDATE); --新用戶信息,AdRes對照新舊用戶時用
pro_supportdw_dimresource;? ---- 新加廣告維度數(shù)據(jù)更新
1.4.2 事實表job
1.4.2.1 market job
1) ?market Job對應(yīng)過程: PRO_Support_Market_JOBs
2)? 包含事實表表過程如下:
pro_supportdw_factmarket
pro_support_oldfactmarket
pro_supportdw_loadfactmarket
1.4.2.2 廣告資源 job
1) 此job包含在廠商job中
1.4.2.3 廠商job
1) 廠商Job對應(yīng)過程: pro_support_adres_agg_jobs
2) 包含事實表表過程如下:
pro_supportdw_factadres
pro_supportdw_loadaggrmarket
?
2 Cube相關(guān)
2.1 Cube介紹
2.1.1 cube說明
An?OLAPcube?is an?array?of data understood in termsof its 0 or more dimensions.
Cube是一個多維數(shù)據(jù)模型的簡稱.
2.1.1 cube相關(guān)術(shù)語
1)多維數(shù)據(jù)集: 多維數(shù)據(jù)集是聯(lián)機分析處理 (OLAP) 中的主要對象,是一項可對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行快速訪問的技術(shù).多維數(shù)據(jù)集是一個數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個由一組維度和度量值定義的多維結(jié)構(gòu).
2)維度: 是多維數(shù)據(jù)集的結(jié)構(gòu)性特性.它們是事實數(shù)據(jù)表中用來描述數(shù)據(jù)的分類的有組織層次結(jié)構(gòu)(級別).這些分類和級別描述了一些相似的成員集合,用戶將基于這些成員集合進(jìn)行分析.
3.度量值: 在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實數(shù)據(jù)表中的一列,而且通常為數(shù)字.此外,度量值是所分析的多維數(shù)據(jù)集的中心值.即,度量值是最終用戶瀏覽多維數(shù)據(jù)集時重點查看的數(shù)字?jǐn)?shù)據(jù).您所選擇的度量值取決于最終用戶所請求的信息類型.一些常見的度量值有 sales、cost、expenditures 和 production count 等.
4)元數(shù)據(jù): 不同 OLAP 組件中的數(shù)據(jù)和應(yīng)用程序的結(jié)構(gòu)模型.元數(shù)據(jù)描述 OLTP 數(shù)據(jù)庫中的表、數(shù)據(jù)倉庫和數(shù)據(jù)集市中的多維數(shù)據(jù)集這類對象,還記錄哪些應(yīng)用程序引用不同的記錄塊.
5)級別: 級別是維度層次結(jié)構(gòu)的一個元素.級別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高(匯總程度最大)級別直到最低(最詳細(xì))級別.
6)數(shù)據(jù)挖掘: 數(shù)據(jù)挖掘使您得以定義包含分組和預(yù)測規(guī)則的模型,以便應(yīng)用于關(guān)系數(shù)據(jù)庫或多維 OLAP 數(shù)據(jù)集中的數(shù)據(jù).之后,這些預(yù)測模型便可用于自動執(zhí)行復(fù)雜的數(shù)據(jù)分析,以找出幫助識別新機會并選擇有獲勝把握的機會的趨勢.
7)多維: ?OLAP (MOLAP): MOLAP 存儲模式使得分區(qū)的聚合和其源數(shù)據(jù)的復(fù)本以多維結(jié)構(gòu)存儲在分析服務(wù)器計算機上.根據(jù)分區(qū)聚合的百分比和設(shè)計,MOLAP 存儲模式為達(dá)到最快查詢響應(yīng)時間提供了潛在可能性.總而言之,MOLAP 更加適合于頻繁使用的多維數(shù)據(jù)集中的分區(qū)和對快速查詢響應(yīng)的需要.
8)關(guān)系: OLAP (ROLAP): ROLAP 存儲模式使得分區(qū)的聚合存儲在關(guān)系數(shù)據(jù)庫的表(在分區(qū)數(shù)據(jù)源中指定)中.但是,可為分區(qū)數(shù)據(jù)使用 ROLAP 存儲模式,而不在關(guān)系數(shù)據(jù)庫中創(chuàng)建聚合.
9)混合: ?OLAP (HOLAP): HOLAP 存儲模式結(jié)合了 MOLAP 和 ROLAP 二者的特性.
10)粒度: 數(shù)據(jù)匯總的層次或深度.
11)聚合|聚集: 聚合是預(yù)先計算好的數(shù)據(jù)匯總,由于在問題提出之前已經(jīng)準(zhǔn)備了答案,聚合可以改進(jìn)查詢響應(yīng)時間.
12)切塊: 由多個維的多個成員限定的分區(qū)數(shù)據(jù),稱為一個切塊.
13)切片: 由一個維的一個成員限定的分區(qū)數(shù)據(jù),稱為一個切片.
14)數(shù)據(jù)鉆取: 最終用戶從常規(guī)多維數(shù)據(jù)集、虛擬多維數(shù)據(jù)集或鏈接多維數(shù)據(jù)集中選擇單個單元,并從該單元的源數(shù)據(jù)中檢索結(jié)果集以獲得更詳細(xì)的信息,這個操作過程就是數(shù)據(jù)鉆取.
備注: Mondrian 是基于ROLAP的
2.2 Pentaho工具說明
2.2.1 mondrian
Mondrianis an OLAP (online analytical processing) engine written in Java.
Java寫的OLAP引擎.
2.2.2 schema workbench
TheMondrian Schema Workbench is a designer interface that allows you to create andtest Mondrian OLAP cube schemas visually.
SchemaWorkbench是一個圖形化工具,可以定義MondrianOLAP cube的模式..
2.2.3 biserver
PentahoBI Server?which functions as a web based report management system,application integration server and lightweight workflow engine (actionsequences.) It is designed to be easily integrated into any business processes.
PentahoBI服務(wù)器,提供Cube的展示和訪問.
2.2.4 schema
多維分析模式xml代碼,見如下截圖:
2.3 Pentaho部署
2.3.1 數(shù)據(jù)源配置
2.2.2 administration-console
1) 雙擊 D:\ProgramFiles\biserver-ce-4.5.0-stable\biserver-ce\start-pentaho.bat
2) 雙擊 D:\ProgramFiles\biserver-ce-4.5.0-stable\administration-console\start-pac.bat
3) 輸入localhost:8099(或則IP地址) 配置數(shù)據(jù)源
2.3.2 schema workbench
點擊schemaworkbench里的connection選項
2.3.2 發(fā)布
1) schema workbench里打開cube對應(yīng)的xml文件.點擊發(fā)布至biserver里.
、
2.3.2 訪問
1) 輸入http://localhost:8080/pentaho/Home
2) 點擊New Analysis → Cube名稱(如AdRes)
3) 進(jìn)入如下Cube展示頁面.
?
總結(jié)
以上是生活随笔為你收集整理的基于mondrian的多维分析系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: xp图标怎么调小 如何缩小Windows
- 下一篇: u盘分区怎么都显示不出来了 U盘分区不显