《商务与经济统计》学习笔记(三)
1.異常值的檢測
有時候數據集中會包含一個或多個異常大或小的觀測值,這些極端值稱為異常值。
標準化數值(z-分數) 可以用來確認異常值。
什么是(z-分數):利用平均數和標準差,我們可以確定任何觀察值的相對位置。任何觀測值的z-分數都被認為是對數據集中觀測值相對位置的量度。
計算公式為:
zi=(xi?xˉ)/s.z_{i} =(x_{i}-\bar x)/s. zi?=(xi??xˉ)/s.
其中ziz_{i}zi?代表z-分數,xˉ\bar xxˉ為樣本平均數;s為樣本標準差。
經驗法則:對具有鐘形分布的數據,幾乎所有的數據值與平均數的距離都在3各標準差之內。因此,利用z-分數來檢測異常時,建議把z-分數小于-3或大于+3的任何數值都視為異常值。
另一種方法:
確認異常值的另一種方法是以第一四分位數和第三四分位數(Q1Q_{1}Q1?和Q3Q_{3}Q3?)以及四分位數間距(IQRIQRIQR)為依據。利用這種方法,我們首先計算如下的下限和上限:
下限=Q1?1.5×IQR上限=Q3+1.5×IQRIQR=Q3?Q1.下限=Q_{1}-1.5\times IQR\\ 上限=Q_{3}+1.5\times IQR\\ IQR = Q_{3}-Q_{1}. 下限=Q1??1.5×IQR上限=Q3?+1.5×IQRIQR=Q3??Q1?.
如果一個觀測值的數值小于下限或者大于上限,則被歸于異常值。
四分位數(Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值。多應用于統計學中的箱線圖繪制。它是一組數據排序后處于25%和75%位置上的值。四分位數是通過3個點將全部數據等分為4部分,其中每部分包含25%的數據。很顯然,中間的四分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(稱為下四分位數)和處在75%位置上的數值(稱為上四分位數)。與中位數的計算方法類似,根據未分組數據計算四分位數時,首先對數據進行排序,然后確定四分位數所在的位置,該位置上的數值就是四分位數。
2.五數概括法和箱型圖
五數概括法使用下面五個數來匯總數據:
(1)最小值
(2)第一四分位數
(3)中位數(第二四分位數)
(4)第三四分位數
(5)最大值
箱型圖:基于五數概括法的數據圖形匯總。
總結
以上是生活随笔為你收集整理的《商务与经济统计》学习笔记(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 指针和对象
- 下一篇: VBA之六--EXCEL VBA两则