access对比数据_数据仓库系列之数据质量管理
數(shù)據(jù)質(zhì)量一直是數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域一個(gè)比較令人頭疼的問(wèn)題,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)上層對(duì)接很多業(yè)務(wù)系統(tǒng),業(yè)務(wù)系統(tǒng)的臟數(shù)據(jù),業(yè)務(wù)系統(tǒng)變更,都會(huì)直接影響數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量。因此數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量建設(shè)是一些公司的重點(diǎn)工作。
一、數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量的高低代表了該數(shù)據(jù)滿足數(shù)據(jù)消費(fèi)者期望的程度,這種程度基于他們對(duì)數(shù)據(jù)的使用預(yù)期。數(shù)據(jù)質(zhì)量必須是可測(cè)量的,把測(cè)量的結(jié)果轉(zhuǎn)化為可以理解的和可重復(fù)的數(shù)字,使我們能夠在不同對(duì)象之間和跨越不同時(shí)間進(jìn)行比較。數(shù)據(jù)質(zhì)量管理是通過(guò)計(jì)劃、實(shí)施和控制活動(dòng),運(yùn)用質(zhì)量管理技術(shù)度量、評(píng)估、改進(jìn)和保證數(shù)據(jù)的恰當(dāng)使用。
二、數(shù)據(jù)質(zhì)量維度
1、準(zhǔn)確性:數(shù)據(jù)不正確或描述對(duì)象過(guò)期
2、合規(guī)性:數(shù)據(jù)是否以非標(biāo)準(zhǔn)格式存儲(chǔ)
3、完備性:數(shù)據(jù)不存在
4、及時(shí)性:關(guān)鍵數(shù)據(jù)是否能夠及時(shí)傳遞到目標(biāo)位置
5、一致性:數(shù)據(jù)沖突
6、重復(fù)性:記錄了重復(fù)數(shù)據(jù)
三、數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)質(zhì)量分析的主要任務(wù)就是檢查數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求以及不能直接進(jìn)行相關(guān)分析的數(shù)據(jù)。臟數(shù)據(jù)包括以下內(nèi)容:
1、缺省值
2、異常值
3、不一致的值
4、重復(fù)數(shù)據(jù)以及含有特殊符號(hào)(如#、¥、*)的數(shù)據(jù)
我們已經(jīng)知道了臟數(shù)據(jù)有4個(gè)方面的內(nèi)容,接下來(lái)我們逐一來(lái)看這些數(shù)據(jù)的產(chǎn)生原因,影響以及解決辦法。
第一、 缺省值分析
產(chǎn)生原因:
1、有些信息暫時(shí)無(wú)法獲取,或者獲取信息的代價(jià)太大
2、有些信息是被遺漏的,人為或者信息采集機(jī)器故障
3、屬性值不存在,比如一個(gè)未婚者配偶的姓名、一個(gè)兒童的固定收入
影響:
1、會(huì)丟失大量的有用信息
2、數(shù)據(jù)額挖掘模型表現(xiàn)出的不確定性更加顯著,模型中蘊(yùn)含的規(guī)律更加難以把握
3、包含空值的數(shù)據(jù)會(huì)使得建模過(guò)程陷入混亂,導(dǎo)致不可靠輸出
解決辦法:
通過(guò)簡(jiǎn)單的統(tǒng)計(jì)分析,可以得到含有缺失值的屬性個(gè)數(shù),以及每個(gè)屬性的未缺失數(shù)、缺失數(shù)和缺失率。刪除含有缺失值的記錄、對(duì)可能值進(jìn)行插補(bǔ)和不處理三種情況。
第二、 異常值分析
產(chǎn)生原因:業(yè)務(wù)系統(tǒng)檢查不充分,導(dǎo)致異常數(shù)據(jù)輸入數(shù)據(jù)庫(kù)
影響:不對(duì)異常值進(jìn)行處理會(huì)導(dǎo)致整個(gè)分析過(guò)程的結(jié)果出現(xiàn)很大偏差
解決辦法:可以先對(duì)變量做一個(gè)描述性統(tǒng)計(jì),進(jìn)而查看哪些數(shù)據(jù)是不合理的。最常用的統(tǒng)計(jì)量是最大值和最小值,用力啊判斷這個(gè)變量是否超出了合理的范圍。如果數(shù)據(jù)是符合正態(tài)分布,在原則下,異常值被定義為一組測(cè)定值中與平均值的偏差超過(guò)3倍標(biāo)準(zhǔn)差的值,如果不符合正態(tài)分布,也可以用原理平均值的多少倍標(biāo)準(zhǔn)差來(lái)描述。
第三、 不一致值分析
產(chǎn)生原因:不一致的數(shù)據(jù)產(chǎn)生主要發(fā)生在數(shù)據(jù)集成過(guò)程中,這可能是由于被挖掘的數(shù)據(jù)是來(lái)自不同的數(shù)據(jù)源、對(duì)于重復(fù)性存放的數(shù)據(jù)未能進(jìn)行一致性更新造成。例如,兩張表中都存儲(chǔ)了用戶的電話號(hào)碼,但在用戶的號(hào)碼發(fā)生改變時(shí)只更新了一張表中的數(shù)據(jù),那么兩張表中就有了不一致的數(shù)據(jù)。
影響:直接對(duì)不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可能會(huì)產(chǎn)生與實(shí)際相悖的數(shù)據(jù)挖掘結(jié)果。
解決辦法:注意數(shù)據(jù)抽取的規(guī)則,對(duì)于業(yè)務(wù)系統(tǒng)數(shù)據(jù)變動(dòng)的控制應(yīng)該保證數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)抽取最新數(shù)據(jù)
第四、 重復(fù)數(shù)據(jù)及特殊數(shù)據(jù)產(chǎn)生原因:
產(chǎn)生原因:業(yè)務(wù)系統(tǒng)中未進(jìn)行檢查,用戶在錄入數(shù)據(jù)時(shí)多次保存。或者因?yàn)槟甓葦?shù)據(jù)清理導(dǎo)致。特殊字符主要在輸入時(shí)攜帶進(jìn)入數(shù)據(jù)庫(kù)系統(tǒng)。
影響:統(tǒng)計(jì)結(jié)果不準(zhǔn)確,造成數(shù)據(jù)倉(cāng)庫(kù)中無(wú)法統(tǒng)計(jì)數(shù)據(jù)
解決辦法:在ETL過(guò)程中過(guò)濾這一部分?jǐn)?shù)據(jù),特殊數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
四、數(shù)據(jù)質(zhì)量管理
大多數(shù)企業(yè)都沒(méi)有一個(gè)很好的數(shù)據(jù)質(zhì)量管理的機(jī)制,因?yàn)樗麄儾焕斫馄鋽?shù)據(jù)的價(jià)值,并且他們不認(rèn)為數(shù)據(jù)是一個(gè)組織的資產(chǎn),而把數(shù)據(jù)看作創(chuàng)建它的部門領(lǐng)域內(nèi)的東西。缺乏數(shù)據(jù)質(zhì)量管理將導(dǎo)致臟數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)、無(wú)法整合、性能低下、可用性差、責(zé)任缺失、使用系統(tǒng)用戶日益不滿意IT的性能。
在做數(shù)據(jù)分析之前一般都應(yīng)該初步對(duì)數(shù)據(jù)進(jìn)行評(píng)估。初步數(shù)據(jù)評(píng)估通過(guò)數(shù)據(jù)報(bào)告來(lái)完成的,數(shù)據(jù)報(bào)告通常在準(zhǔn)備把數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)時(shí)做一次,它是全面跨數(shù)據(jù)集的,它描述了數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、規(guī)則、和關(guān)系的概況。通過(guò)應(yīng)用統(tǒng)計(jì)方法返回一組關(guān)于數(shù)據(jù)的標(biāo)準(zhǔn)特征,包括數(shù)據(jù)類型、字段長(zhǎng)度、列基數(shù)、粒度、值域、格式模式、隱含的規(guī)則、跨列和跨表的數(shù)據(jù)關(guān)系,以及這些關(guān)系的基數(shù)。初步評(píng)估報(bào)告的目的是獲得對(duì)數(shù)據(jù)和環(huán)境的了解,并對(duì)數(shù)據(jù)的狀況進(jìn)行描述。數(shù)據(jù)報(bào)告應(yīng)該如下:
總結(jié)
以上是生活随笔為你收集整理的access对比数据_数据仓库系列之数据质量管理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 薇娅偷逃税追缴处罚13.41亿元!薇娅夫
- 下一篇: 辛选回应辛巴起诉快手:只是侵权纠纷 不是