离群点(oulier)挖掘详解
異常對象被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。
常見的異常成因:數據來源于不同的類(異常對象來自于一個與大多數數據對象源(類)不同的源(類)的思想),自然變異,以及數據測量或收集誤差。
異常檢測的方法:
(1)基于模型的技術:首先建立一個數據模型,異常是那些同模型不能完美擬合的對象;如果模型是簇的集合,則異常是不顯著屬于任何簇的對象;在使用回歸模型時,異常是相對遠離預測值的對象。
(2)基于鄰近度的技術:通常可以在對象之間定義鄰近性度量,異常對象是那些遠離其他對象的對象。
(3)基于密度的技術:僅當一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。
(1)統計方法。統計學方法是基于模型的方法,即為數據創建一個模型,并且根據對象擬合模型的情況來評估它們。大部分用于離群點檢測的統計學方法都是構建一個概率分布模型,并考慮對象有多大可能符合該模型。離群點的概率定義:離群點是一個對象,關于數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什么分布,如果估計錯誤就造成了重尾分布。異常檢測的混合模型方法:對于異常檢測,數據用兩個分布的混合模型建模,一個分布為普通數據,而另一個為離群點。
??????聚類和異常檢測目標都是估計分布的參數,以最大化數據的總似然(概率)。聚類時,使用EM算法估計每個概率分布的參數。然而,這里提供的異常檢測技術使用一種更簡單的方法。初始時將所有對象放入普通對象集,而異常對象集為空。然后,用一個迭代過程將對象從普通集轉移到異常集,只要該轉移能提高數據的總似然(其實等價于把在正常對象的分布下具有低概率的對象分類為離群點)。(假設異常對象屬于均勻分布)。異常對象由這樣一些對象組成,這些對象在均勻分布下比在正常分布下具有顯著較高的概率。
??????優缺點:
(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;
(2)對于多元數據,可用的選擇少一些,并且對于高維數據,這些檢測可能性很差。
(2)基于鄰近度的離群點檢測。一個對象是異常的,如果它遠離大部分點。這種方法比統計學方法更一般、更容易使用,因為確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。一個對象的離群點得分由到它的k-最近鄰的距離給定。離群點得分對k的取值高度敏感。如果k太小(例如1),則少量的鄰近離群點可能導致較低的離群點得分;如果K太大,則點數少于k的簇中所有的對象可能都成了離群點。為了使該方案對于k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
優缺點:
(1)簡單;
(2)缺點:基于鄰近度的方法需要O(m2)時間,大數據集不適用;
(3)該方法對參數的選擇也是敏感的;
(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。
(3)基于密度的離群點檢測。從基于密度的觀點來說,離群點是在低密度區域中的對象。一個對象的離群點得分是該對象周圍密度的逆?;诿芏鹊碾x群點檢測與基于鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類算法使用的密度定義,即一個對象周圍的密度等于該對象指定距離d內對象的個數。需要小心的選擇d,如果d太小,則許多正常點可能具有低密度,從而具有高離群點得分。如果d太大,則許多離群點可能具有與正常點類似的密度(和離群點得分)。使用任何密度定義檢測離群點具有與基于鄰近度的離群點方案類似的特點和局限性。特殊地,當數據包含不同密度的區域時,它們不能正確的識別離群點。為了正確的識別這種數據集中的離群點,我們需要與對象鄰域相關的密度概念,也就是定義相對密度。常見的有兩種方法:(1)使用基于SNN密度的聚類算法使用的方法;(2)用點x的密度與它的最近鄰y的平均密度之比作為相對密度。使用相對密度的離群點檢測(局部離群點要素LOF技術):首先,對于指定的近鄰個數(k),基于對象的最近鄰計算對象的密度density(x,k),由此計算每個對象的離群點得分;然后,計算點的鄰近平均密度,并使用它們計算點的平均相對密度。這個量指示x是否在比它的近鄰更稠密或更稀疏的鄰域內,并取作x的離群點得分(這個是建立在上面的離群點得分基礎上的)。
優缺點:(1)給出了對象是離群點的定量度量,并且即使數據具有不同的區域也能夠很好的處理;(2)與基于距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對于低維數據使用特定的數據結構可以達到O(mlogm);(3)參數選擇是困難的。雖然LOF算法通過觀察不同的k值,然后取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。
(4)基于聚類的技術。一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇。這個方法可以和其他任何聚類技術一起使用,但是需要最小簇大小和小簇與其他簇之間距離的閾值。這種方案對簇個數的選擇高度敏感。使用這個方案很難將離群點得分附加到對象上。一種更系統的方法,首先聚類所有對象,然后評估對象屬于簇的程度(離群點得分)(基于原型的聚類可用離中心點的距離來評估,對具有目標函數的聚類技術該得分反映刪除對象后目標函數的改進(這個可能是計算密集的))。基于聚類的離群點:一個對象是基于聚類的離群點,如果該對象不強屬于任何簇。離群點對初始聚類的影響:如果通過聚類檢測離群點,則由于離群點影響聚類,存在一個問題:結構是否有效。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。還有一種更復雜的方法:取一組不能很好的擬合任何簇的特殊對象,這組對象代表潛在的離群點。隨著聚類過程的進展,簇在變化。不再強屬于任何簇的對象被添加到潛在的離群點集合;而當前在該集合中的對象被測試,如果它現在強屬于一個簇,就可以將它從潛在的離群點集合中移除。聚類過程結束時還留在該集合中的點被分類為離群點(這種方法也不能保證產生最優解,甚至不比前面的簡單算法好,在使用相對距離計算離群點得分時,這個問題特別嚴重)。
??對象是否被認為是離群點可能依賴于簇的個數(如k很大時的噪聲簇)。該問題也沒有簡單的答案。一種策略是對于不同的簇個數重復該分析。另一種方法是找出大量小簇,其想法是(1)較小的簇傾向于更加凝聚,(2)如果存在大量小簇時一個對象是離群點,則它多半是一個真正的離群點。不利的一面是一組離群點可能形成小簇而逃避檢測。
優缺點:(1)基于線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;(3)產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;(4)聚類算法產生的簇的質量對該算法產生的離群點的質量影響非常大。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的离群点(oulier)挖掘详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据挖掘之关联分析七(非频繁模式)
- 下一篇: 数据挖掘应用的一些场景和对应算法