【数据挖掘笔记十二】离群点检测
?
12.離群點檢測
離群點檢測或異常檢測,是找出其行為很不同于預期對象的過程。這種對象稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現數據集中的多數模式并據此組織數據,而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。
12.1?離群點和離群點分析
離群點顯著不同于其他對象。離群點類型包括全局離群點、情境離群點、集體離群點。離群點檢測的挑戰來自:正常對象和離群點的有效建模、針對應用的離群點檢測、在離群點檢測中處理噪聲、可理解性。
12.2?離群點檢測方法
如果得到專家標記的正常和離群點對象實例,可以建立離群點檢測模型,包括監督方法、無監督方法、半監督方法。
離群點檢測方法對離群點與其他數據做出假定,根據所做的假定,可以把離群點檢測方法分為三類:統計學方法、基于鄰近性的方法和基于聚類的方法。
12.3?統計學方法
離群點檢測的統計學方法假定數據集中的正常對象由一個隨機過程(生成模型)產生,因此,正常對象出現在該隨機模型的高概率區域中,而低概率區域中的對象是離群點。
離群點檢測的統計學方法一般思想是:學習一個擬合給定數據集的生成模型,然后識別該模型低概率區域中的對象,把它們作為離群點。根據如何指定和如何學習模型,離群點檢測的統計學方法可劃分為兩個主要類型:參數方法和非參數方法。
參數方法假定正常的對象唄一個以Θ為參數的參數分布產生,該參數分布的概率密度函數f(x,Θ)給出對象x被該分布產生的概率,該值越小,x越可能是離群點。
非參數方法并不假定先驗統計模型,而是試圖從輸入數據確定模型。
參數方法包括:基于正態分布的一元離群點檢測、多元離群點檢測(馬哈拉諾比斯距離)、使用混合參數分布。
非參數方法包括:直方圖。
12.4?基于鄰近性的方法
基于鄰近性的方法假定:離群點對象與它最近鄰的鄰近性顯著偏離數據集中其他對象與它們近鄰之間的鄰近性。
有兩種方法:基于距離的和基于密度的。基于距離的考慮對象給定半徑的鄰域。基于密度的考察對象和它近鄰的密度。CELL是一種基于距離的離群點檢測的基于網格的方法。
12.5?基于聚類的方法
基于聚類的方法通過考察對象與簇之間的關系檢測離群點。離群點是一個對象,屬于小的偏遠簇,或不屬于任何簇。
12.6?基于分類的方法
基于分類的離群點檢測方法的思想是,訓練一個可以區分正常數據離群點的分類模型。
12.7?挖掘情境離群點和集體離群點
情境屬性包括空間屬性、時間、網絡位置和復雜結構的屬性。行為屬性定義對象的特征,并用于估計對象在它所屬的情境下是否是離群點。
一組數據對象形成一個集體離群點,如果這些對象作為一個整體顯著地偏離整個數據集。盡管該組群中的每個對象可能并非離群點。
12.8?高維數據中的離群點檢測
高維數據離群點檢測面臨離群點解釋、數據稀疏性、數據子空間、維度可伸縮性的挑戰。
擴充的傳統離群點檢測方法,使用傳統的基于近鄰性的離群點模型,為克服高維空間鄰近性度量惡化問題,使用其他度量或構造子空間在其中檢測離群點。
搜索各種子空間中的離群點的優點是,如果發現一個對象是很低維度的子空間中的離群點,則該子空間提供了重要信息,解釋了對象為什么以及在何種程度上是離群點。
為高維離群點建立一個新模型,避免鄰近性度量,而采用新的啟發式方法來檢測離群點。
12.9?小結
1)假定一個給定的統計過程用來產生數據對象集。離群點是顯著偏離其余對象的數據對象,仿佛它是被不同的機制產生。
2)離群點的類型包括全局離群點、情境離群點、集體離群點。一個對象可能是多種類型的離群點。
3)全局離群點是最簡單的離群點形式,并且最容易檢測。情境離群點是關于對象的特定情境顯著地偏離其他對象。數據對象是一個子集形成集體離群點,如果這些對象顯著偏離整個數據集,盡管個體數據對象可能不是離群點。集體離群點檢測需要背景信息來對對象之間聯系建模,以便發現離群點的組群。
4)離群點檢測的挑戰包括發現合適的數據模型、離群點檢測系統對應用的依賴性、找到區別離群點與噪聲的方法、提供為什么對象唄識別為離群點的解釋。
5)離群點檢測方法可以根據用于分析的數據樣本是否是專家提供的、可以用來建立離群點檢測模型的標號來分類。在這種情況下,檢測方法可以是監督的、無監督的、半監督的。或者,離群點檢測方法可以根據它們對正常對象和離群點的假定來組織,這種類別包括統計學方法、基于鄰近性的方法和基于聚類的方法。
6)統計學離群點檢測方法或基于模型的方法,假定正常的數據對象遵守一個統計學模型,而不遵守該模型的數據被視為離群點。這種模型可以是參數的(假定數據被一個參數分布產生)和非參數的(由數據學習模型,而不是先驗地假定一個)。多元數據的參數方法可以使用馬哈拉諾比斯距離、x2統計量或多個參數模型的混合。直方圖和核密度估計都是非參數模型的例子。
7)基于鄰近性的離群點檢測方法,假定一個對象是離群點,如果該對象與它最近鄰的鄰近性顯著偏離相同數據集中大部分其他對象與它們最近鄰的鄰近性。基于距離的離群點檢測方法考慮被半徑定義的對象的鄰域。一個對象是離群點,如果它的鄰域沒有足夠多的其他點。在基于密度的離群點檢測方法中,一個對象是離群點,如果它的密度比它的近鄰相對低得多。
8)基于聚類的離群點檢測方法,假定正常的數據對象屬于大的、稠密的簇,而離群點屬于小的或稀疏的簇,或不屬于任何簇。
9)基于分類的離群點檢測方法,使用一類模型,構建一個僅描述正常類的分類器,不屬于正常類的任何樣本都被視為離群點。
10)情境離群點和集體離群點檢測探索數據中的結構。在情境離群點檢測,結構是使用情境屬性定義的情境。在集體離群點檢測,結構是蘊涵的,并且作為挖掘過程的一部分來探索。為了檢測這類離群點,一種方法是把該問題轉換成傳統的離群點檢測問題,另一種方法直接對結構建模。
11)高維數據的離群點檢測方法可以劃分為三種主要方法,這些包括擴充的傳統離群點檢測、找出子空間中的離群點和對高維離群點建模。
總結
以上是生活随笔為你收集整理的【数据挖掘笔记十二】离群点检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘笔记十一】高级聚类分析
- 下一篇: 【数据挖掘笔记十三】数据挖掘的发展趋势和