数据挖掘之统计学基础(1):【理论】描述性统计
?
0x00前言
描述性統計是一種匯總統計,用于定量描述或總結信息集合的特征。描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。?
描述性統計分為集中趨勢和離散趨勢。
0x01集中趨勢
集中趨勢又稱 “數據的中心位置”,集中趨勢反映了數據向其中心值聚集的程度,是對數據一般水平的概括性度量,主要通過平均值、中位數和眾數來表示。
1.眾數
出現頻次最高的觀測值。
例子:數據集['a', 'a', 'b', 'c', 'c', 'c', 'd']的眾數是'c'。?
優點:不受極端值影響,可應用于定性數據。
缺點:一組數據可能不存在眾數,有時一組數據可能會有一個以上的眾數。
使用場景:當數值或被觀察者沒有明顯次序(常發生于非數值性資料)時特別有用, 由于可能無法良好定義算術平均數和中位數.
2.中位數
按大小順序排列的數據組之中點位置對應的數值,該數值把數據組分成兩半。
例子:數據集[777, 888, 4, 999, 5, 66, 1, 2, 3]的中位數是5。
優點:不受極端值影響。
缺點:需要對數據排序,對大樣本將非常繁瑣。
使用場景:當一組數據中的個別數據變動較大時, 常用它來描述這組數據的集中趨勢.
3.分位數
分位數(Quantile),亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。
優點:不受極端值影響。
缺點:數據信息量不充分。
使用場景:排名百分比(如成績排名前10%的學員)、箱線圖、分位數回歸等。
1)二分位數
對于有限的數集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個,則中位數不唯一,通常取最中間的兩個數值的平均數作為中位數,即二分位數。
例子
- 數據集[1, 2, 3, 4, 5]的二分位數是3。
- 數據集[1, 2, 3, 4, 5, 6]的二分位數是3.5。
2)百分位數
百分位數,統計學術語,如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。
例子:數據集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]
25%分位數是15,50%分位數是40,75%分位數是43。
4.平均數
平均數,統計學術語,是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。它是反映數據集中趨勢的一項指標。
優點:充分利用數據全部信息,一組數據只有一個平均數并且組中每個數據的變化都會影響平均數。
缺點:容易受極端值影響。?
1)算術平均數
算術平均數是指在一組數據中所有數據之和再除以數據的個數。它是反映數據集中趨勢的一項指標。
?
例子:數據集[1, 2, 3, 4, 5, 6]的平均數是3.5。
使用場景:數據在各項的權重相等。
2)加權平均數
加權平均數是不同比重數據的平均數,加權平均數就是把原始數據按照合理的比例來計算。
平均數是加權平均數的一種特殊情況,即各項的權相等時,加權平均數就是算術平均數。
?
例子:數據集[1, 2, 3, 4, 5],對應的權重是[0.1, 0.3, 0.2, 0.4, 0.1]
加權平均數=(1*0.1 + 2*0.3 + 3*0.2 + 4*0.4 + 5*0.1)/(0.1 + 0.3 + 0.2 + 0.4 + 0.1)=3.0909090909。
權重是一個相對的概念,是針對某一指標而言。某一指標的權重是指該指標在整體評價中的相對重要程度。權重表示在評價過程中,是被評價對象的不同側面的重要程度的定量分配,對各評價因子在總體評價中的作用進行區別對待。事實上,沒有重點的評價就不算是客觀的評價。
使用場景:某一指標的權重是指該指標在整體評價中的相對重要程度, 沒有重要性的指標分析是不完善的。
3)幾何平均數
幾何平均數是對各變量值的連乘積開項數次方根。根據所拿握資料的形式不同,其分為簡單幾何平均數和加權幾何平均數兩種形式。?
簡單幾何平均數:
加權幾何平均數:
例子:假定某地儲蓄年利率(按復利計算):5%持續1.5年,3%持續2.5年,2.2%持續1年。求此5年內該地平均儲蓄年利率。
得到該地平均儲蓄年利率:
使用場景:
- 對比率、指數等進行平均;
- 計算平均發展速度;
- 復利下的平均年利率;
- 連續作業的車間求產品的平均合格率。
0x02離散程度
離散趨勢反映了數據遠離中心值的程度,是衡量集中趨勢值對整個數據的代表程度。數據的離散度越大,說明集中趨勢值的代表性越低;反之,數據的離散程度越接近于0,說明集中趨勢值的代表性越高。數據的離散程度主要通過范圍、標準差和方差來表示。
1.數值型數據
1)方差
方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。?
σ^2為總體方差,X為變量,μ為總體均值,N為總體例數。
?
優點:方差的計算結果將數據的波動性數值放大,比極差和標準差更為細致、準確、明顯。
缺點:增加數據點時,方差的結果會隨之增大。
使用場景:計算數據的離散程度,例如通過模型誤差的方差來判斷模型的泛華能力。?
2)標準差
標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。
優點:表示離散程度的數字與樣本數據點的數量級一致,更適合對數據樣本形成感性認知。另外,在樣本數據大致符合正態分布的情況下,標準差具有方便估算的特性:66.7%的數據點落在平均值前后1個標準差的范圍內、95%的數據點落在平均值前后2個標準差的范圍內,而99%的數據點將會落在平均值前后3個標準差的范圍內。
缺點:增加數據點時,標準差的結果會隨之增大。
使用場景:標準差應用于投資上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越小,代表回報較為穩定,風險亦較小。?
3)極差
為一組數據的最大值和最小值之差。?
優點:計算十分簡單。
缺點:它只考慮了數據中的最大值和最小值,而忽略了全部觀察值之間的差異,僅適用樣本容量較小(n<10)情況。
使用場景:極差在SPC控制圖中有大量應用。?
4)平均差
平均差(Mean Deviation)是表示各個變量值之間差異程度的數值之一。指各個變量值同平均數的離差絕對值的算術平均數。
優點:充分利用數據全部信息。?缺點:絕對值不便于運算。
使用場景:由于平均差采用了離差的絕對值,不便于運算,這樣使其應用受到了很大限制。
2.順序數據:四分位數
四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值就是四分位數。
- 第一四分位數(Q1),又稱“較小四分位數”,等于該樣本中所有數值由小到大排列后第25%的數字;
- 第二四分位數(Q2),又稱“中位數”,等于該樣本中所有數值由小到大排列后第50%的數字;
- 第三四分位數(Q3),又稱“較大四分位數”,等于該樣本中所有數值由小到大排列后第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距。
例子:數據集[6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]的Q1=15,Q2=40,Q3=43。
優點:四分位數不受極值的影響。
缺點:需要對數據排序,對大樣本將非常繁瑣。?使用場景:四分位距、異常值判斷等。
3.分類數據:異眾比率
異眾比率又稱離異比率或變差比,是指的是非眾數的次數與全部變量值總次數的比率,即眾數不能代表的那一部分變量值在總體中的比重。
使用場景:異眾比率主要用于測度分類數據的離散程度,當然,對于順序數據以及數值型數據也可以計算異眾比率。譬如,我們通過計算求出一項50人調查中,購買其它品牌飲料(指除可口可樂之外的品牌)的人數達到70%的異眾比率,異眾比率比較大,那么,說明用“可口可樂”來代表消費者購買飲料品牌的狀況,其代表性比較差,其眾數代表性就不是很明顯。?
4.相對離散程度:離散系數
離散系數又稱變異系數,是統計學當中的常用統計指標。離散系數是測度數據離散程度的相對統計 量,主要是用于比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。
優點:比起標準差來,變異系數的好處是不需要參照數據的平均值。變異系數是一個無量綱量,因此在比較兩組量綱不同或均值不同的數據時,應該用變異系數而不是標準差來作為比較的參考。
缺點:當平均值接近于0的時候,微小的擾動也會對變異系數產生巨大影響,因此造成精確度不足。另外,離散系數無法發展出類似于均值的置信區間的工具。
使用場景:比較不同樣本數據的離散程度。?
0x03分布的形狀
1.偏態系數
偏態(skewness)是對數據分布對稱性的測度,測量偏態的統計量是偏態系數(coefficient of skewness,SK),是對統計數據分布偏斜程度的度量,是描述分布非對稱程度的數字特征。
偏態越大,表示偏斜的程度越大。?
偏態系數以平均值與中位數之差對標準差之比率來衡量偏斜的程度,用SK表示偏斜系數:偏態系數小于0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。偏態系數大于0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏。?
?
使用場景:在社會經濟現象的計量分析中,許多現象的次數分布并非對稱,如果應用偏態系數指標,則可將被研究總體在其平均水平上下次數分布的特征簡明扼要地反映出來。?
2.峰態系數
峰態(kurtosis)是對數據分布平峰或尖峰程度的測度。測度峰態的統計量是峰態系數(coefficient of kurtosis),記作K,是對統計數據分布陡峭程度的度量。通常是與標準正態分布相比較而言。
?
?
使用場景:一項金融資產,設若其預期收益率的峰度較高,則說明該項資產的預期收益率有相對較高的概率取極端值。換句話說,該項資產未來行市發生劇烈波動的概率相對較高。?
參考文獻:
[1] 百度百科. https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91
[2] https://wenku.baidu.com/view/6382042865ce05087732139f.html. https://wenku.baidu.com/view/6382042865ce05087732139f.html
總結
以上是生活随笔為你收集整理的数据挖掘之统计学基础(1):【理论】描述性统计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于SSM+VUE的医院设备管理系统
- 下一篇: Comcast 力推 RDK