AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度
生活随笔
收集整理的這篇文章主要介紹了
AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
標準差
- 標準差(Standard Deviation)是離均值平方的算術平均數的平方根,用符號 σ \sigma σ 表示,其實標準差就是方差的算術平方根
- 標準差和方差都是測量離散趨勢的最重要、最常見的指標。
- 標準差和方差的不同點自傲與,標準差和變量的計算單位是相同的,比方差清楚,因此在很多分析的時候使用的是標準差
- σ = D ( X ) = ∑ ( X ? μ ) 2 N \sigma = \sqrt{D(X)} = \sqrt{\frac{\sum (X-\mu)^2}{N}} σ=D(X)?=N∑(X?μ)2??
標準差的計算
- 有這樣兩組數據
- 一組:
- X 1 : 2 , 4 , 6 , 8 , 10 X_1: 2, 4, 6, 8, 10 X1?:2,4,6,8,10
- P ( X 1 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_1): 0.2, 0.2, 0.2, 0.2, 0.2 P(X1?):0.2,0.2,0.2,0.2,0.2
- D ( X 1 ) = 8 , σ 1 = D ( X 1 ) = 8 = 2.8284 D(X_1) = 8, \sigma_1 = \sqrt{D(X_1)} = \sqrt{8} = 2.8284 D(X1?)=8,σ1?=D(X1?)?=8?=2.8284
- 二組:
- X 1 : 4 , 5 , 6 , 7 , 8 X_1: 4, 5, 6, 7, 8 X1?:4,5,6,7,8
- P ( X 2 ) : 0.2 , 0.2 , 0.2 , 0.2 , 0.2 P(X_2): 0.2, 0.2, 0.2, 0.2, 0.2 P(X2?):0.2,0.2,0.2,0.2,0.2
- D ( X 2 ) = 2 , σ 2 = D ( X 2 ) = 2 = 1.4142 D(X_2) = 2, \sigma_2 = \sqrt{D(X_2)} = \sqrt{2} = 1.4142 D(X2?)=2,σ2?=D(X2?)?=2?=1.4142
- 一組:
例1
- 有甲乙兩個單位愿意聘用你,而你能夠獲得的信息如下,請根據工資待遇的差異情況,您選擇哪家單位?為什么?
- 甲單位
- 甲單位不同職位與工資 X 1 X_1 X1?元: 1200, 1400, 1600, 1800
- 獲取該職位的概率 P 1 P_1 P1?: 0.4, 0.3, 0.2, 0.1
- E ( X 1 ) = 1400 , D ( X 1 ) = 40000 E(X_1) = 1400, D(X_1) = 40000 E(X1?)=1400,D(X1?)=40000
- 乙單位
- 一單位不同職位月工資 X 2 X_2 X2?元: 1000, 1400, 1800, 2200
- 獲取該職位的概率 P 2 P_2 P2?: 0.4, 0.3, 0.2, 0.1
- E ( X 2 ) = 1400 , D ( X 2 ) = 160000 E(X_2) = 1400, D(X_2) = 160000 E(X2?)=1400,D(X2?)=160000
例2
- 已知隨機變量X的分布列如下,分別求 E ( X ) 、 E ( 2 X + 5 ) 、 D ( X ) 、 σ ( X ) E(X)、E(2X+5)、D(X)、\sigma(X) E(X)、E(2X+5)、D(X)、σ(X)的值
- X:-2, 1, 3
- P:0.16, 0.44, 0.40
- 分析
- E ( X ) = ? 2 ? 0.16 + 1 ? 0.44 + 3 ? 0.40 = 1.32 E(X) = -2 * 0.16 + 1 * 0.44 + 3 * 0.40 = 1.32 E(X)=?2?0.16+1?0.44+3?0.40=1.32
- E ( 2 X + 5 ) = 2 E ( X ) + 5 = 2 ? 1.32 + 5 E(2X+5) = 2E(X) + 5 = 2 * 1.32 + 5 E(2X+5)=2E(X)+5=2?1.32+5
- D ( X ) = E ( X 2 ) ? ( E ( X ) ) 2 = ( ? 2 ) 2 ? 0.16 + 1 2 ? 0.44 + 3 2 ? 0.40 ? 1.3 2 2 = 2.9376 D(X) = E(X^2) - (E(X))^2 = (-2)^2 * 0.16 + 1^2 * 0.44 + 3^2 * 0.40 - 1.32^2 = 2.9376 D(X)=E(X2)?(E(X))2=(?2)2?0.16+12?0.44+32?0.40?1.322=2.9376
- σ ( X ) = D ( X ) = 2.9376 ≈ 1.7139 \sigma(X) = \sqrt{D(X)} = \sqrt{2.9376} \approx 1.7139 σ(X)=D(X)?=2.9376?≈1.7139
協方差
- 協方差常用于衡量兩個變量的總體誤差;當兩個變量相同的情況下,協方差其實就是方差
- 如果X和Y是統計獨立的,那么二值之間的協方差為零。但是如果協方差為零,那么X和Y是不相關的
- C o v ( X , Y ) = E [ ( X ? E ( X ) ) ? ( Y ? E ( Y ) ) ] = E [ X Y ? X E ( Y ) ? Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) ? E ( X ) E ( Y ) Cov(X,Y) = E[(X - E(X)) · (Y - E(Y))] = E[XY - XE(Y) - YE(X) + E(X)E(Y)] = E(XY) - E(X)E(Y) Cov(X,Y)=E[(X?E(X))?(Y?E(Y))]=E[XY?XE(Y)?YE(X)+E(X)E(Y)]=E(XY)?E(X)E(Y)
- 假設C為一個常數,X和Y是兩個隨機變量,那么協方差有性質如下所示:
- C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y,X) Cov(X,Y)=Cov(Y,X)
- C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX, bY) = abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
- C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y) Cov(X1?+X2?,Y)=Cov(X1?,Y)+Cov(X2?,Y)
- 協方差是兩個隨機變量具有相同方向變化趨勢的度量
- (1). 若 C o v ( X , Y ) > 0 Cov(X,Y) > 0 Cov(X,Y)>0, 則X和Y的變化趨勢相同
- (2). 若 C o v ( X , Y ) < 0 Cov(X,Y) < 0 Cov(X,Y)<0, 則X和Y的變化趨勢相反
- (3). 若 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0, 則X和Y不相關,也就是變化沒有什么相關性
協方差矩陣
- 對于n個隨機向量 ( X 1 , X 2 , X 3 , . . . , X n ) (X_1, X_2, X_3, ..., X_n) (X1?,X2?,X3?,...,Xn?), 任意兩個元素 X i X_i Xi?和 X j X_j Xj?都可以得到一個協方差,從而形成一個 n ? n n*n n?n的矩陣,該矩陣就叫做協方差矩陣,協方差矩陣為對稱矩陣
- C i j = E { [ X i ? E ( X i ) ] [ X j ? E ( X j ) ] } = C o v ( X i , X j ) C_{ij} = E\{ [X_i - E(X_i)] [X_j - E(X_j)] \} = Cov(X_i, X_j) Cij?=E{[Xi??E(Xi?)][Xj??E(Xj?)]}=Cov(Xi?,Xj?)
- C = [ c 11 c 12 ? c 1 n c 21 c 22 ? c 2 n ? ? ? ? c n 1 c n 2 ? c n n ] C =\left [\begin{array}{cccc}c_{11} & c_{12} & \cdots & c_{1n} \\c_{21} & c_{22} & \cdots & c_{2n} \\\cdots & \cdots & \cdots & \cdots \\c_{n1} & c_{n2} & \cdots & c_{nn}\end{array} \right ] C=?????c11?c21??cn1??c12?c22??cn2???????c1n?c2n??cnn???????
Pearson相關系數
- 協方差可以描述X和Y的相關程度,但是協方差的值和X/Y的值采用那個的是不同的量綱,導致協方差在數值上表現出較大的差異,因此可以引入相關系數來標識X和Y的相關性
- ρ ( X , Y ) = C o v ( X , Y ) D ( X ) ? D ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{D(X)} · \sqrt{D(Y)}} ρ(X,Y)=D(X)??D(Y)?Cov(X,Y)?
| 0.8 - 1.0 | 極強相關 |
| 0.6 - 0.8 | 強相關 |
| 0.4 - 0.6 | 中等程度相關 |
| 0.2 - 0.4 | 弱相關 |
| 0 - 0.2 | 極強相關或無相關 |
- 當 ρ ( X , Y ) = 0 \rho(X,Y) = 0 ρ(X,Y)=0的時候,稱X和Y不線性相關
- Pearson相關系數取值范圍是 [ ? 1 , 1 ] [-1, 1] [?1,1]
中心距、原點矩
- 假設X和Y是隨機變量,若 E ( X k ) , k = 1 , 2 , . . . E(X^k), k=1,2,... E(Xk),k=1,2,...存在,則稱它為k階原點距,簡稱k階距
- 若 E { [ X ? E ( X ) ] k } E\{ [X - E(X)]^k \} E{[X?E(X)]k}, k=1,2,…存在, 則稱它為X的k階中心距
- 若 E { [ X ? c ] k } E\{ [X - c]^k \} E{[X?c]k}, k=1,2,…存在, 則稱它為X的關于點c的k階矩
- 若 E { X k Y p } E\{ X^k Y^p \} E{XkYp}, k、p = 1,2,…存在,則稱它為X和Y的k+p階混合原點矩
- 若 E { [ X ? E ( X ) ] k [ Y ? E ( Y ) ] p } E\{ [X-E(X)]^k [Y - E(Y)]^p \} E{[X?E(X)]k[Y?E(Y)]p}, k、p = 1,2,…存在, 則稱它為X和Y的k+p階混合中心距
- X的數學期望E(X)是X的一階原點矩
- X的方差D(X)是X的二階中心矩
- X和Y的協方差Cov(X,Y)是X和Y的二階混合中心矩
峰度
- 峰度(peakedness, kurtosis)又稱峰態系數。表示了概率密度分布曲線在平均值處峰值高低的特征數,直觀來說,峰值反映的是峰部的尖度。
- 樣本的峰度是和正態分布相比較而言的統計量,如果峰度值大于三,那么峰的形狀比較尖,比正態分布峰要陡峭,反之亦然。
- 峰度計算公式:隨機變量的四階中心矩與方差平方的比值
- k u r t o s i s = ∑ i = 1 N ( x i ? x ˉ ) 4 ( N ? 1 ) ? s 4 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^4}{(N-1) · s^4} kurtosis=(N?1)?s4∑i=1N?(xi??xˉ)4?
偏度
- 偏度系數(skewness)是描述分布偏離對稱性程度的一個特征數。
- 當分布左右對稱的時候,偏度系數為0
- 當偏度系數大于0的時候,即重尾在右側時,該分布為右偏
- 當偏度系數小于0的時候,即重尾在左側時,該分布為左偏
- 偏度計算公式:隨機變量的三階中心距與標準差立方的比值
- k u r t o s i s = ∑ i = 1 N ( x i ? x ˉ ) 3 ( N ? 1 ) ? s 3 kurtosis = \frac{\sum_{i=1}^N (x_i - \bar{x})^3}{(N-1)·s^3} kurtosis=(N?1)?s3∑i=1N?(xi??xˉ)3?
總結
以上是生活随笔為你收集整理的AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: APP中H5页面实现拨打电话功能
- 下一篇: 企业租用服务器大带宽有哪些优势