身高2m,体重2kg,这样的数据“看上去很好”?
導讀:數(shù)據(jù)挖掘算法通常用于為其他目的收集的數(shù)據(jù),或者在收集時未明確其目的。因此,數(shù)據(jù)挖掘常常不能“在數(shù)據(jù)源頭控制質(zhì)量”。相比之下,統(tǒng)計學的實驗設計或調(diào)查中,其數(shù)據(jù)質(zhì)量往往都達到了一定的要求。由于無法避免數(shù)據(jù)質(zhì)量問題,因此數(shù)據(jù)挖掘著眼于兩個方面:
(1)數(shù)據(jù)質(zhì)量問題的檢測和糾正;
(2)使用可以容忍低質(zhì)量數(shù)據(jù)的算法。第一步的檢測和糾正,通常稱作數(shù)據(jù)清理(data cleaning)。
本文討論數(shù)據(jù)質(zhì)量。盡管也討論某些與應用有關的問題,但是關注的焦點是測量和數(shù)據(jù)收集問題。
作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等
如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)(ID:hzdashuju)
01 測量和數(shù)據(jù)收集問題
期望數(shù)據(jù)完美是不現(xiàn)實的。人類的錯誤、測量設備的限制或數(shù)據(jù)收集過程中的漏洞都可能導致問題。數(shù)據(jù)的值乃至整個數(shù)據(jù)對象都可能會丟失。在有些情況下,可能有不真實或重復的對象,即對應于單個“實際”對象出現(xiàn)了多個數(shù)據(jù)對象。
例如,對于一個最近住過兩個不同地方的人,可能有兩個不同的記錄。即使所有的數(shù)據(jù)都不缺,并且“看上去很好”,也可能存在不一致,如一個人身高2m,但體重只有2kg。
下面我們關注數(shù)據(jù)測量和收集方面的數(shù)據(jù)質(zhì)量問題。我們先定義測量誤差和數(shù)據(jù)收集錯誤,然后考慮涉及測量誤差的各種問題:噪聲、偽像、偏置、精度和準確率。最后討論同時涉及測量和數(shù)據(jù)收集的數(shù)據(jù)質(zhì)量問題:離群點、遺漏和不一致的值、重復數(shù)據(jù)。
1. 測量誤差和數(shù)據(jù)收集錯誤
術語測量誤差(measurement error)是指測量過程中產(chǎn)生的問題。一個常見的問題是:在某種程度上,記錄的值與實際值不同。對于連續(xù)屬性,測量值與實際值的差稱為誤差(error)。
術語數(shù)據(jù)收集錯誤(data collection error)是指諸如遺漏數(shù)據(jù)對象或?qū)傩灾?#xff0c;或者不當?shù)匕似渌麛?shù)據(jù)對象等錯誤。例如,一種特定種類動物研究可能包含了相關種類的其他動物,它們只是表面上與要研究的種類相似。測量誤差和數(shù)據(jù)收集錯誤可能是系統(tǒng)的也可能是隨機的。
我們只考慮一般的錯誤類型。在特定的領域中,總有某些類型的錯誤是常見的,并且通常存在很好的技術,能檢測并糾正這些錯誤。例如,人工輸入數(shù)據(jù)時,鍵盤錄入錯誤是常見的,因此許多數(shù)據(jù)輸入程序具有檢測技術,并通過人工干預糾正這類錯誤。
2. 噪聲和偽像
噪聲是測量誤差的隨機部分。這通常涉及值被扭曲或加入了謬誤對象。圖2.5顯示了被隨機噪聲干擾前后的時間序列。如果在時間序列上添加更多的噪聲,形狀將會消失。圖2.6顯示了三組添加一些噪聲點(用“+”表示)前后的數(shù)據(jù)點集。注意,有些噪聲點與非噪聲點混在一起。
▲圖2.5 時間序列中的噪聲
▲圖2.6 空間中的噪聲
術語“噪聲”通常用于包含時間或空間分量的數(shù)據(jù)。在這些情況下,常常可以使用信號或圖像處理技術降低噪聲,從而幫助發(fā)現(xiàn)可能“淹沒在噪聲中”的模式(信號)。盡管如此,完全消除噪聲通常是困難的,而許多數(shù)據(jù)挖掘工作都關注設計魯棒算法(robust algorithm),即在噪聲干擾下也能產(chǎn)生可以接受的結(jié)果。
數(shù)據(jù)錯誤可能是更確定性現(xiàn)象的結(jié)果,如一組照片在同一地方出現(xiàn)條紋。數(shù)據(jù)的這種確定性失真常稱作偽像(artifact)。
3. 精度、偏置和準確率
在統(tǒng)計學和實驗科學中,測量過程和結(jié)果數(shù)據(jù)是用精度和偏置度量的。我們給出標準的定義,隨后簡略加以討論。對于下面的定義,我們假定對相同的基本量進行重復測量。
精度(precision):(同一個量的)重復測量值之間的接近程度。
偏置(bias):測量值與被測量之間的系統(tǒng)的變化。
精度通常用值集合的標準差度量,而偏置用值集合的均值與測出的已知值之間的差度量。只有那些通過外部手段能夠得到測量值的對象,偏置才是可確定的。
假定我們有1g質(zhì)量的標準實驗室重量,并且想評估實驗室的新天平的精度和偏置。我們稱重5次,得到下列值:{1.015,0.990,1.013,1.001,0.986}。這些值的均值是1.001,因此偏置是0.001。用標準差度量,精度是0.013。
通常使用更一般的術語準確率表示數(shù)據(jù)測量誤差的程度。
準確率(accuracy):被測量的測量值與實際值之間的接近度。
準確率依賴于精度和偏置,但是沒有用這兩個量表達準確率的公式。
準確率的一個重要方面是有效數(shù)字(significant digit)的使用。其目標是僅使用數(shù)據(jù)精度所能確定的數(shù)字位數(shù)表示測量或計算結(jié)果。
例如,對象的長度用最小刻度為毫米的米尺測量,則我們只能記錄最接近毫米的長度數(shù)據(jù),這種測量的精度為±0.5mm。這里不再詳細地討論有效數(shù)字,因為大部分讀者應當在先前的課程中接觸過,并且在理工科和統(tǒng)計學教材中討論得相當深入。
諸如有效數(shù)字、精度、偏置和準確率問題常常被忽視,但是對于數(shù)據(jù)挖掘、統(tǒng)計學和自然科學,它們都非常重要。通常,數(shù)據(jù)集并不包含數(shù)據(jù)精度信息,用于分析的程序返回的結(jié)果也沒有這方面的信息。45但是,缺乏對數(shù)據(jù)和結(jié)果準確率的理解,分析者將可能出現(xiàn)嚴重的數(shù)據(jù)分析錯誤。
4. 離群點
離群點(outlier)是在某種意義上具有不同于數(shù)據(jù)集中其他大部分數(shù)據(jù)對象的特征的數(shù)據(jù)對象,或是相對于該屬性的典型值來說不尋常的屬性值。我們也稱其為異常(anomalous)對象或異常值。有許多定義離群點的方法,并且統(tǒng)計學和數(shù)據(jù)挖掘界已經(jīng)提出了很多不同的定義。
此外,區(qū)別噪聲和離群點這兩個概念是非常重要的。與噪聲不同,離群點可以是合法的數(shù)據(jù)對象或值。例如,在欺詐和網(wǎng)絡入侵檢測中,目標就是在大量的正常對象或事件中找到異常對象或事件。
5. 遺漏值
一個對象遺漏一個或多個屬性值的情況并不少見。有時可能會出現(xiàn)信息收集不全的情況,例如有的人拒絕透露年齡或體重。
還有些情況下,某些屬性并不能用于所有對象,例如表格常常有條件選擇部分,僅當填表人以特定的方式回答前面的問題時,條件選擇部分才需要填寫,但為簡單起見存儲了表格的所有字段。無論何種情況,在數(shù)據(jù)分析時都應當考慮遺漏值。
有許多處理遺漏值的策略(和這些策略的變種),每種策略適用于特定的情況。這些策略在下面列出,同時我們指出它們的優(yōu)缺點。
刪除數(shù)據(jù)對象或?qū)傩?/strong>
一種簡單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對象。然而,即使不完整的數(shù)據(jù)對象也包含一些有用的信息,并且,如果許多對象都有遺漏值,則很難甚至不可能進行可靠的分析。
盡管如此,如果某個數(shù)據(jù)集只有少量的對象具有遺漏值,則忽略它們可能是合算的。一種與之相關的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,46因為被刪除的屬性可能對分析是至關重要的。
估計遺漏值
有時,遺漏值可以可靠地估計。例如,在考慮以大致平滑的方式變化的、具有少量但分散的遺漏值的時間序列時,遺漏值可以使用其他值來估計(插值)。另舉一例,考慮一個具有許多相似數(shù)據(jù)點的數(shù)據(jù)集,與具有遺漏值的點鄰近的點的屬性值常常可以用來估計遺漏的值。
如果屬性是連續(xù)的,則可以使用最近鄰的平均屬性值;如果屬性是分類的,則可以取最近鄰中最常出現(xiàn)的屬性值。為了更具體地解釋,考慮地面站記錄的降水量,對于未設地面站的區(qū)域,降水量可以使用鄰近地面站的觀測值估計。
在分析時忽略遺漏值
許多數(shù)據(jù)挖掘方法都可以修改,以忽略遺漏值。例如,假定正在對數(shù)據(jù)對象聚類,需要計算各對數(shù)據(jù)對象間的相似性。如果某對數(shù)據(jù)對象的一個對象或兩個對象的某些屬性有遺漏值,則可以僅使用沒有遺漏值的屬性來計算相似性。
當然,這種相似性只是近似的,但是除非整個屬性數(shù)目很少,或者遺漏值的數(shù)量很大,否則這種誤差影響不大。同樣,許多分類方法都可以修改,以便于處理遺漏值。
6. 不一致的值
數(shù)據(jù)可能包含不一致的值。比如地址字段列出了郵政編碼和城市名,但是有的郵政編碼區(qū)域并不包含在對應的城市中。這可能是人工輸入該信息時顛倒了兩個數(shù)字,或許是在掃描手寫體時錯讀了一個數(shù)字。無論導致不一致值的原因是什么,重要的是能檢測出來,并且如果可能的話,糾正這種錯誤。
有些不一致類型容易檢測,例如人的身高不應當是負的。另一些情況下,可能需要查閱外部信息源,例如當保險公司處理賠償要求時,它將對照顧客數(shù)據(jù)庫核對賠償單上的姓名與地址。
檢測到不一致后,有時可以對數(shù)據(jù)進行更正。產(chǎn)品代碼可能有“校驗”數(shù)字,或者可以通過一個備案的已知產(chǎn)品代碼列表復核產(chǎn)品代碼,如果發(fā)現(xiàn)它不正確但接近一個已知代碼,則糾正它。糾正不一致需要額外的或冗余的信息。
例:不一致的海洋表面溫度
該例解釋實際的時間序列數(shù)據(jù)中的不一致性。這些數(shù)據(jù)是在海洋的不同點測量的海洋表面溫度(SST)。最初人們利用船或浮標使用海洋測量方法收集SST數(shù)據(jù),而最近開始使用衛(wèi)星來收集這些數(shù)據(jù)。為了創(chuàng)建長期的數(shù)據(jù)集,需要使用這兩種數(shù)據(jù)源。
然而,由于數(shù)據(jù)來自不同的數(shù)據(jù)源,兩部分數(shù)據(jù)存在微妙的不同。這種差異顯示在圖2.7中,該圖顯示了各年度之間SST值的相關性。如果某兩個年度的SST值是正相關的,則對應于這兩年的位置為白色,否則為黑色。(季節(jié)性的變化從數(shù)據(jù)中刪除,否則所有的年都是高度相關的。)數(shù)據(jù)匯集在一起的地方(1983年)有一個明顯的變化。
在1958~1982年和1983~1999年兩組中,每組內(nèi)的年相互之間趨向于正相關,但與另一組的年負相關。這并不意味著該數(shù)據(jù)不能用,但是分析者應當考慮這種差異對數(shù)據(jù)挖掘分析的潛在影響。
▲圖2.7 年對之間SST數(shù)據(jù)的相關性。白色區(qū)域表示正相關,黑色區(qū)域表示負相關
7. 重復數(shù)據(jù)
數(shù)據(jù)集可以包含重復或幾乎重復的數(shù)據(jù)對象。許多人都收到過重復的郵件,因為它們以稍微不相同的名字多次出現(xiàn)在數(shù)據(jù)庫中。為了檢測并刪除這種重復,必須處理兩個主要問題。
首先,如果兩個對象實際代表同一個對象,則對應的屬性值必然不同,必須解決這些不一致的值;其次,需要避免意外地將兩個相似但并非重復的數(shù)據(jù)對象(如兩個人具有相同姓名)合并在一起。術語去重復(deduplication)通常用來表示處理這些問題的過程。
在某些情況下,兩個或多個對象在數(shù)據(jù)庫的屬性度量上是相同的,但是仍然代表不同的對象。這種重復是合法的。但是,如果某些算法設計中沒有專門考慮這些屬性可能相同的對象,就還是會導致問題。
02 關于應用的問題
數(shù)據(jù)質(zhì)量問題也可以從應用角度考慮,表達為“數(shù)據(jù)是高質(zhì)量的,如果它適合預期的應用”。特別是對工商界,數(shù)據(jù)質(zhì)量的這種提議非常有用。類似的觀點也出現(xiàn)在統(tǒng)計學和實驗科學中,那里強調(diào)精心設計實驗來收集與特定假設相關的數(shù)據(jù)。與測量和數(shù)據(jù)收集一樣,許多數(shù)據(jù)質(zhì)量問題與特定的應用和領域有關。我們這里仍然只考慮一些一般性問題。
1. 時效性
有些數(shù)據(jù)在收集后就開始老化。比如說,如果數(shù)據(jù)提供正在發(fā)生的現(xiàn)象或過程的快照,如顧客的購買行為或Web瀏覽模式,則快照只代表有限時間內(nèi)的真實情況。如果數(shù)據(jù)已經(jīng)過時,則基于它的模型和模式也已經(jīng)過時。
2. 相關性
可用的數(shù)據(jù)必須包含應用所需要的信息。考慮構(gòu)造一個模型,預測交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的準確率可能是有限的。
確保數(shù)據(jù)集中的對象相關不太容易。一個常見問題是抽樣偏置(sampling bias),指樣本包含的不同類型的對象與它們在總體中的出現(xiàn)情況不成比例。例如調(diào)查數(shù)據(jù)只反映對調(diào)查做出響應的那些人的意見。由于數(shù)據(jù)分析的結(jié)果只能反映現(xiàn)有的數(shù)據(jù),抽樣偏置通常會導致不正確的分析。
3. 關于數(shù)據(jù)的知識
理想情況下,數(shù)據(jù)集附有描述數(shù)據(jù)的文檔。文檔的質(zhì)量好壞決定它是支持還是干擾其后的分析。例如,如果文檔標明若干屬性是強相關的,則說明這些屬性可能提供了高度冗余的信息,我們通常只保留一個屬性。(考慮銷售稅和銷售價格。)
然而,如果文檔很糟糕,例如,沒有告訴我們某特定字段上的遺漏值用-9999表示,則我們的數(shù)據(jù)分析就可能出問題。其他應該說明的重要特性是數(shù)據(jù)精度、特征的類型(標稱的、序數(shù)的、區(qū)間的、比率的)、測量的刻度(如長度用米還是英尺)和數(shù)據(jù)的來源。
關于作者:陳封能(Pang-Ning Tan) ,密歇根州立大學計算機科學與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡空間安全、網(wǎng)絡分析等。
本文摘編自《數(shù)據(jù)挖掘?qū)д摗?#xff08;原書第2版),經(jīng)出版方授權發(fā)布。
延伸閱讀《數(shù)據(jù)挖掘?qū)д摗?#xff08;原書第2版)
點擊上圖了解及購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦語:本書為斯坦福大學、密歇根州立大學、明尼蘇達大學、得克薩斯大學等知名高校的數(shù)據(jù)挖掘課程教材。從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術。所涵蓋的主題包括:數(shù)據(jù)預處理、預測建模、關聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應用于實際問題所需的必要背景以及方法。
延伸閱讀《計算機時代的統(tǒng)計推斷》
點擊上圖了解及購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦語:統(tǒng)計推斷入門經(jīng)典,斯坦福大學知名教授Trevor Hastie全新力作。本書以豐富的案例介紹了計算機時代下的統(tǒng)計推斷的發(fā)展脈絡,從理論的角度剖析統(tǒng)計推斷的各類算法、證據(jù)等,揭示統(tǒng)計推斷如何推動當今大數(shù)據(jù)、數(shù)據(jù)科學、機器學習等領域的快速發(fā)展并引領數(shù)據(jù)分析的變革,最后展望了統(tǒng)計學和數(shù)據(jù)科學的未來方向。
長按二維碼或點擊閱讀原文
發(fā)現(xiàn)更多好書
「大數(shù)據(jù)」內(nèi)容合伙人之「鑒書小分隊」上線啦!
最近,你都在讀什么書?有哪些心得體會想要跟大家分享?
數(shù)據(jù)叔最近搞了個大事——聯(lián)合優(yōu)質(zhì)圖書出版商機械工業(yè)出版社華章公司發(fā)起鑒書活動。
簡單說就是:你可以免費讀新書,你可以免費讀新書的同時,順手碼一篇讀書筆記就行。詳情請在大數(shù)據(jù)公眾號后臺對話框回復合伙人查看。
有話要說?
Q:?獲得高質(zhì)量的數(shù)據(jù),你會用哪些方法?
歡迎留言與大家分享
猜你想看?
數(shù)據(jù)分析必備:掌握這個R語言基礎包1%的功能,你就很牛了
包教包會,7段代碼帶你玩轉(zhuǎn)Python條件語句
學霸們在假期里“偷著學”,看的是這些書
從圖靈機、圖靈測試到人工智能:什么決定了AI能否取代人類?
更多精彩?
在公眾號對話框輸入以下關鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?報告?|?讀書?|?書單?|?干貨?
大數(shù)據(jù)?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?區(qū)塊鏈
機器學習?|?深度學習?|?神經(jīng)網(wǎng)絡
合伙人?|?1024?|?段子?|?數(shù)學?|?高考
據(jù)統(tǒng)計,99%的大咖都完成了這個神操作
?
覺得不錯,請把這篇文章分享給你的朋友
轉(zhuǎn)載 / 投稿請聯(lián)系:baiyu@hzbook.com
更多精彩,請在后臺點擊“歷史文章”查看
點擊閱讀原文,了解更多
總結(jié)
以上是生活随笔為你收集整理的身高2m,体重2kg,这样的数据“看上去很好”?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 豆瓣7.6,这部被低估的科幻片告诉你,通
- 下一篇: 苹果 M1 “痛失” Windows 1