北京年会和关于数据仓库板块的思考
生活随笔
收集整理的這篇文章主要介紹了
北京年会和关于数据仓库板块的思考
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
說(shuō)實(shí)話我認(rèn)為是一個(gè)喜歡研究技術(shù)的人,雖然我的 Oracle 、 Sybase 、 SQLServer 等數(shù)據(jù)庫(kù) 水平實(shí)在很菜,甚至 Powerbuilder,VB,Java 水平也不過(guò)爾耳;在火車上是和 hanson 、 yxyup 、 yeahy 三位 Oracle 高手一起入住的;在 08 年會(huì) 上新認(rèn)識(shí)的 warehouse 、 zhouwf0726 、趙宇;包括 ningoo 、 blue_prince 、 xzh2000 、 piner 在內(nèi)的淘寶的一系列的 DBA ; yangtingkun 、 D.C.B.A 、 rollingpig 這樣的牛人;其他 DBA 像老朱、 diablo2 雖然是 DB2 或者已經(jīng)不做數(shù)據(jù)庫(kù)了;還有棉花糖這個(gè)好學(xué)生; ora-600 這個(gè)職業(yè)講師兼自由人;已經(jīng)當(dāng)了官的 QQ 小鳥(niǎo); HP 的 yanggq 、 fusnow 、 skyjiang ;當(dāng)然還有 eygle 和 biti 這兩位超級(jí)牛人,雖然他們不一定認(rèn)識(shí)我; Oracle 板塊的斑竹我應(yīng)該認(rèn)識(shí)一半有余了;總的來(lái)說(shuō)給我的感覺(jué)他們的數(shù)據(jù)庫(kù)功底非常的深厚, Oracle 的 DBA 隊(duì)伍越來(lái)越龐大,人才濟(jì)濟(jì);這一點(diǎn)看看數(shù)據(jù)庫(kù)的分會(huì)場(chǎng)就知道了,這一塊也是 itpub 安身立命的基礎(chǔ) ,也是打敗各個(gè)其他論壇的基石,衷心希望 itpub 能夠堅(jiān)持下去, DBA 能夠一代一代的傳承下去;環(huán)顧過(guò)去數(shù)據(jù)倉(cāng)庫(kù)只有我和 flywolf2000 兩個(gè)人參會(huì),未免太形單影只了,當(dāng)然數(shù)據(jù)倉(cāng)庫(kù)并不是我們兩個(gè)可以代表的。 當(dāng)然除了 itpub 之外還有一些其他活躍的論壇和群組,像 TTNN 、 dwway 、 ChinaBI 、 BI 立方體-商業(yè)智能社區(qū)、 CSDN 的子板塊。 http://www.dwway.com/ 好像那里需要發(fā)表原創(chuàng)文檔才能成為正式會(huì)員,反正我發(fā)了一篇之后就沒(méi)去過(guò)了,要求門檻太高,變成陽(yáng)春白雪了,對(duì)于普及和發(fā)展階段的 BI/DW 并非什么好事。 http://www.ChinaBI.com/ 網(wǎng)站口氣很大,不過(guò)似乎并不活躍,那里的文章轉(zhuǎn)載居多(當(dāng)然也包括我的,曾向我約稿過(guò),后來(lái)就沒(méi)怎么談了),所有的博客訪問(wèn)量比我多一些,以介紹案例為主 http://www.bicubes.com 是個(gè)剛成立的網(wǎng)站,最近折騰的比較厲害,剛開(kāi)始在 itpub 上做廣告,還因?yàn)檗D(zhuǎn)載文章的緣故,在數(shù)據(jù)倉(cāng)庫(kù)板塊 PK 了一陣子,著是熱鬧了一陣子,沒(méi)理會(huì)他,最近聯(lián)合 TTNN 組織過(guò)兩次 BIER 的聚會(huì)。曾經(jīng)想注冊(cè)看看虛實(shí),無(wú)奈新浪郵箱注冊(cè)不了也就算了,不過(guò)更新很慢。 http://groups.google.com/group/ttnn 算是個(gè)比較火的 BI/DW 討論群組了,每個(gè)月定期會(huì)出一本電子雜志,創(chuàng)辦人獨(dú)立支撐了兩年 ( 確實(shí)很不容易 ) ,務(wù)虛和耍嘴皮子的太多而真正做架構(gòu)的很少,很多東西流于概念 ,談不到一起,后來(lái)我也就是定期去下載雜志,不怎么發(fā)言了。道不同不相為謀,沒(méi)準(zhǔn)別人認(rèn)為我層次太低呢。上面的數(shù)據(jù)倉(cāng)庫(kù)板塊可以忽略不談了 itpub 的數(shù)據(jù)倉(cāng)庫(kù)板塊現(xiàn)狀又如何呢? 只能說(shuō)數(shù)據(jù)倉(cāng)庫(kù)板塊依托于 itpub 數(shù)據(jù)庫(kù)板塊和社區(qū)功能情況還不至于太糟糕;搞數(shù)據(jù)庫(kù)的往往自以為數(shù)據(jù)庫(kù)和性能優(yōu)化可以解決一切數(shù)據(jù)倉(cāng)庫(kù)問(wèn)題,自然不屑于這些有些理想化和過(guò)于理論化的東西,像盛大好像就是如此花了很多時(shí)間請(qǐng)外面的人講解數(shù)據(jù)倉(cāng)庫(kù)基本知識(shí); ebay 倒是有一批專職數(shù)據(jù)倉(cāng)庫(kù)人員的,可相當(dāng)部分是 HP 過(guò)去的,因?yàn)?ebay 的數(shù)據(jù)倉(cāng)庫(kù)就是 HP 的人在維護(hù)和實(shí)施的;呵呵,不知道淘寶的數(shù)據(jù)倉(cāng)庫(kù)如何; itpub 上討論具體工具使用的太多,還處于初級(jí)階段,當(dāng)然這和數(shù)據(jù)倉(cāng)庫(kù)自身的特點(diǎn)很有關(guān)系, BI/DW 包括了數(shù)據(jù)庫(kù)、 OLAP 、報(bào)表展現(xiàn)工具、 ETL 工具等等,每種又包括若干主流工具,數(shù)據(jù)倉(cāng)庫(kù)解決方案可能由幾十種組合方式,大家疲于奔命只好學(xué)習(xí) 工具而不能自拔了;稍微有些數(shù)據(jù)倉(cāng)庫(kù)工作經(jīng)驗(yàn)的就開(kāi)始務(wù)虛了,討論這個(gè)概念那個(gè)概念的,以為概念能解決任何問(wèn)題;有些人過(guò)分拘泥于數(shù)據(jù)倉(cāng)庫(kù)的概念,對(duì)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)、 OLAP 、 BI 本身的概念糾纏不休,殊不知數(shù)據(jù)倉(cāng)庫(kù)本身就在不斷的發(fā)展過(guò)程中;有些人還對(duì)業(yè)務(wù)驅(qū)動(dòng)還是技術(shù)驅(qū)動(dòng)的第一驅(qū)動(dòng)力產(chǎn)生了興趣,曾經(jīng)在數(shù)據(jù)倉(cāng)庫(kù)板塊發(fā)動(dòng)了一場(chǎng)轟轟烈烈的辯論;新概念只能是為了吸引新的用戶群體發(fā)展客戶群來(lái)用的,不管怎么數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)沒(méi)有改變。 說(shuō)了這么多,那數(shù)據(jù)倉(cāng)庫(kù)究竟是什么呢? 數(shù)據(jù)倉(cāng)庫(kù)定義為 “ 一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易變的用于支持管理 的決策過(guò)程的數(shù)據(jù)集合 ” 。也就是說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是個(gè)數(shù)據(jù)集合,它的載體依然是數(shù)據(jù)庫(kù),不過(guò)和大多數(shù)聯(lián)機(jī)在線系統(tǒng)( OLTP )在目標(biāo)用途特性上已經(jīng)有了本質(zhì)的區(qū)別。 聯(lián)機(jī)事務(wù) 處理系統(tǒng) (OLTP) ,也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間。 OLTP 系統(tǒng)的主要特點(diǎn)就是事務(wù)處理、面向應(yīng)用、反映當(dāng)前情況。 數(shù)據(jù)倉(cāng)庫(kù)的目的則是為了解決在信息技術(shù) (IT) 發(fā)展中存在的擁有大量數(shù)據(jù)、然而有用信息貧乏 (Data rich-Information poor) 的問(wèn)題。如何把數(shù)據(jù)轉(zhuǎn)換成信息,進(jìn)一步把信息轉(zhuǎn)換成知識(shí)的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)則是面向主題、集成性—企業(yè)數(shù)據(jù)框架、歷史性、穩(wěn)定性。 說(shuō)到底數(shù)據(jù)倉(cāng)庫(kù)不是一門純粹的技術(shù),不是數(shù)據(jù)庫(kù)不是 OLAP 不是 ETL 甚至不是 BI 工具,從數(shù)據(jù)庫(kù)角度來(lái)看,良好的物理設(shè)計(jì)和性能優(yōu)化只是其手段而不是目的,數(shù)據(jù)倉(cāng)庫(kù)允許數(shù)據(jù)的冗余允許長(zhǎng)時(shí)間的運(yùn)行;它應(yīng)該是一種體系結(jié)構(gòu),它的核心是在于對(duì)于數(shù)據(jù)的整合,通過(guò)抽絲剝繭把企業(yè)原始數(shù)據(jù)進(jìn)行集成、歸類、分析,從而提供了企業(yè)決策分析需要的 KPI ;同樣它也是一個(gè)過(guò)程 ETL 對(duì)數(shù)據(jù)進(jìn)行集成、整合、清洗、轉(zhuǎn)換和加載,并在實(shí)踐和與用戶確認(rèn)中不斷的校驗(yàn),其最終目標(biāo)是為了達(dá)到整合企業(yè)信息信息,提供決策支持。 因此數(shù)據(jù)倉(cāng)庫(kù)本身應(yīng)該包括兩個(gè)問(wèn)題:邏輯結(jié)構(gòu)和物理結(jié)構(gòu)物理的就是數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)問(wèn)題,一套好的解決方案應(yīng)該是有彈性的, ODS 區(qū)、明細(xì)數(shù)據(jù)數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)(也叫事實(shí)表);以及數(shù)據(jù)庫(kù)、 OLAP 、報(bào)表工具、 ETL 處理一個(gè)都不能少;數(shù)據(jù)庫(kù)作為數(shù)據(jù)倉(cāng)庫(kù)的載體,而且是超大數(shù)據(jù)集合的存儲(chǔ),其性能和分層設(shè)計(jì)自然是重中之重; OLAP 關(guān)系到多維立方體和數(shù)據(jù)的展現(xiàn)效率和效果;報(bào)表工具是用戶的門戶,良好的用戶體驗(yàn)也是系統(tǒng)的關(guān)鍵; ETL 呢是數(shù)據(jù)倉(cāng)庫(kù)最為關(guān)鍵的地方。 ETL 既可以是純粹的數(shù)據(jù)庫(kù)腳本也可以是 ETL 工具本身的可視化界面, ETL 工具本身提供了屏蔽各個(gè)異構(gòu)系統(tǒng)之間的復(fù)雜接口,提供了集成轉(zhuǎn)化抽取裝載的一致化接口,甚至提供了性能優(yōu)化的途徑,也相應(yīng)的也減化和弱化了 DBA 的工作。當(dāng)然 ETL 工具的優(yōu)化無(wú)論如何也比不上 DBA 的優(yōu)化結(jié)果。某種程度上仍然需要數(shù)據(jù)倉(cāng)庫(kù) DBA 的參與。 邏輯的主要是指業(yè)務(wù)問(wèn)題,如果只是數(shù)據(jù)遷移和數(shù)據(jù)的集中,達(dá)不到?jīng)Q策支持的目標(biāo),便失去了數(shù)據(jù)倉(cāng)庫(kù)的意義,因此業(yè)務(wù)問(wèn)題才是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目成敗最重要的關(guān)鍵環(huán)節(jié),所以必須有商務(wù)領(lǐng)域知識(shí)專家、 IT 專家的角色 ( 就是通常所說(shuō)的咨詢顧問(wèn) ) 和甲方的積極參與,這些人往往具備比較資深的行業(yè)背景,具備豐富的獨(dú)立實(shí)施該行業(yè)信息系統(tǒng)建設(shè)的經(jīng)驗(yàn),了解該行業(yè)最先進(jìn)和通用的標(biāo)準(zhǔn)和規(guī)范,同時(shí)在結(jié)合現(xiàn)有企業(yè)信息系統(tǒng)的基礎(chǔ)上,以及融合企業(yè)發(fā)展戰(zhàn)略的基礎(chǔ)上,提出當(dāng)前企業(yè)的業(yè)務(wù)模型,來(lái)幫助企業(yè)提高決策支持分析能力。這一點(diǎn)我不是行業(yè)專家,不敢談及太多。 年會(huì)的時(shí)候, Sybase 公司的盧總找 flywolf2000 和我談起邀請(qǐng) Ralph Kimball 來(lái)華授教的問(wèn)題,想通過(guò) itpub 了解和調(diào)查一下用戶可接受的前景,畢竟邀請(qǐng)大師來(lái)也是一筆不小的費(fèi)用。如果能和 it168 聯(lián)合舉辦也不失為宣傳 it168 和 itpub 的一種策略,至于其他的論壇還沒(méi)有足夠的財(cái)力來(lái)支撐這筆聯(lián)辦費(fèi)用。 Infosys 曾經(jīng)邀請(qǐng)過(guò)數(shù)據(jù)倉(cāng)庫(kù)的鼻祖 Bill Inmon 到印度培訓(xùn)了兩周,留下了很多的寶貴資料。在我看來(lái)他們沒(méi)有什么本質(zhì)的區(qū)別,只是細(xì)節(jié)和實(shí)施方法上有些差別而以,大概是因?yàn)槲易x的書確實(shí)不夠多的緣故。 盡管數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)上和要求是不同的,而令我感到慚愧的是我工作了很多年, Oracle 從使用到現(xiàn)在也經(jīng)歷了 8 個(gè)春秋了,卻還不如那些論壇里面學(xué)了 2 年 Oracle 的人厲害,也許 Oracle 數(shù)據(jù)庫(kù)管理確實(shí)不是我的專長(zhǎng),但是學(xué)好數(shù)據(jù)庫(kù)無(wú)論如何對(duì)數(shù)據(jù)倉(cāng)庫(kù)的物理架構(gòu)設(shè)計(jì)還是有著至關(guān)重要的影響的,有一技之長(zhǎng)總是好的,像我總是飄忽在博而不精、雜而不專的陷阱之中;我希望能夠像各位 Oracle 牛人學(xué)習(xí),并在此再向那些深耕于 Oracle 的 DBA 表示深深的敬意!
總結(jié)
以上是生活随笔為你收集整理的北京年会和关于数据仓库板块的思考的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。