【数据异常校验】格拉布斯准则(Grubbs Criterion)处理数据异常
簡介
Grubbs測試(以1950年發表測試的Frank E. Grubbs命名),也稱為最大歸一化殘差測試或極端學生化偏差測試,是一種統計測試,用于檢測假設的單變量數據集中的異常值來自正常分布的人口。
?
定義
格拉布斯的測試基于正態假設。也就是說,在應用Grubbs測試之前,應首先驗證數據是否可以通過正態分布合理地近似。
格拉布斯的測試一次檢測到一個異常值。從數據集中刪除該異常值,并且迭代測試直到沒有檢測到異常值。但是,多次迭代會改變檢測概率,并且測試不應該用于六個或更少的樣本大小(n>6),因為它經常將大多數點標記為異常值。
?
Grubbs測試是根據假設定義的:
:數據集中沒有異常值
:數據集中只有一個異常值
?
公式
??和?分別表示樣本均值和標準差。
Grubbs檢驗統計量是樣本標準差的單位與樣本均值的最大絕對偏差。
這是測試的雙邊版本。
?
Grubbs測試也可以定義為單側測試。
要測試最小值是否為異常值
公式:
要測試最大值是否為異常值
公式:
?
表示最小值。
表示最大值。
?
?
對于雙邊測試,沒有異常值的假設在顯著級別a級被拒絕
表示的上臨界值的的t分布與N?- 2?自由度和 顯著性水平a/(2N)。對于單側檢驗,用a/N代替a/(2N)。
t分布可用于構建真實均值的置信區間。
?
缺點
格拉布斯和和狄克遜法均給出了嚴格的結果,但存在狄克遜法同樣的缺陷。
?
優化
朱宏等人采用數據值的中位數取代平均值,改進得到了更為穩健的處理方法,有效消除了同側異常值的屏蔽效應。
國際上常推薦采用格拉布斯準則法。
?
參考:https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers
?
總結
以上是生活随笔為你收集整理的【数据异常校验】格拉布斯准则(Grubbs Criterion)处理数据异常的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联发科MT6763/MT6763T/MT
- 下一篇: 手把手教你用ls-dyna做入水冲击荷载