机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)
文章目錄
- 目錄
- 1.概率與統計
- 1.1 機器學習與概率統計之間的關系
- 1.2 重要的統計量
- 1.2.1 期望
- 1.2.2 方差
- 1.2.3 協方差,相關系數
- 協方差
- 相關系數
- 1.2.4 矩
- 1.3 重要的定理與不等式
- 1.4 用樣本估計參數
目錄
1.概率與統計
1.1 機器學習與概率統計之間的關系
1.什么是概率問題和統計問題
- 概率問題:已知數據的整體分布,然后求取抽樣數據的概率。
- 統計問題:是概率問題的逆過程,即已知抽樣數據的概率,求數據的整體分布。
2.監督學習----概率統計
- 訓練過程:統計的過程
- 預測過程:概率的過程
3.機器學習與概率統計的關系
- 統計估計的是一個分布,機器學習訓練出來的是一個模型,模型可以包含多個分布。
- 訓練和預測的核心評價指標是模型的誤差,誤差本身可以為概率的形式
- 對誤差的不同定義方式可以轉換為對不同損失函數的定義。
- 機器學習是概率與統計的進階版本(不嚴謹的說法)
1.2 重要的統計量
1.2.1 期望
1.離散型:E(x) = ∑ixipi\sum_{i}x_ip_i∑i?xi?pi?
2.連續型:E(x) = ∫?+xf(x)dx\int _-^+xf(x)d_x∫?+?xf(x)dx?
期望可以理解為數據加權下的平均值
3.性質
- 無條件成立:E(kx) = kE(x) E(x + y) = E(x) + E(y)
- 如果x,y為相互獨立:E(XY) = E(X) E(Y)
獨立:P(AB) = P(A)*P(B)
互斥:P(AB) = 0 P(A+B) = P(A) + P(B)
若:E(XY) = E(X)E(Y)只能說明X和Y不相關。
1.2.2 方差
1.定義:
var(x) = E(x?E(x))2=E(x2)?E2(x)E{(x - E(x))^2}=E(x^2)-E^2(x)E(x?E(x))2=E(x2)?E2(x)
2.性質
- 無條件成立:
- var(c)=0var(c) = 0var(c)=0
- var(x+c)=var(c)var(x+c) = var(c)var(x+c)=var(c)
- var(kx)=k2var(x)var(kx) = k^2var(x)var(kx)=k2var(x)
- 當x和y相互獨立的時候:
var(x+y)=var(x)+var(y)var(x+y) = var(x) + var(y)var(x+y)=var(x)+var(y)
方差的平方根稱為標準差
方差可以理解為整體數據偏移平均值的一個程度。
1.2.3 協方差,相關系數
協方差
1.定義:
cov(x,y) = E{[x-E(x)]*[y-E(y)]}
從定義可以看出,協方差是從方差定義擴張而來的,方差只針對的單變量,而協方差則考量的是2個變量之間的關系。
x和y如果是離散的變量,則x和y的維度必須相等。
2.性質
- 無條件成立:
- cov(x,y)=cov(y,x)對稱性cov(x,y) = cov(y,x) 對稱性cov(x,y)=cov(y,x)對稱性
- cov(ax+b,cy+d)=accov(x,y)cov(ax+b , cy+d) = accov(x,y)cov(ax+b,cy+d)=accov(x,y)
- cov(x1+x2,y)=cov(x1,y)+cov(x2,y)cov(x_1+x_2,y) = cov(x_1,y) + cov(x_2,y)cov(x1?+x2?,y)=cov(x1?,y)+cov(x2?,y)
- cov(x,y)=E(xy)?E(x)?E(y)cov(x,y) = E(xy) - E(x)*E(y)cov(x,y)=E(xy)?E(x)?E(y)
- 當x,y相互獨立的時候:cov(x,y)=0
cov(x,y)=0 只能得出變量x,y是不相關,無法得出獨立的結論
3.意義:
協方差可以度量兩個變量具在相同方向上的變化趨勢。
- 如果cov(x,y) > 0: x,y的變化趨勢相同
- 如果cov(x,y) < 0: x,y的變化趨勢相反
- 如果cov(x,y) > 0: x,y不相關
可以使用協方差來衡量特征和特征,特征和標簽之間的相關性,即可以基于協方差來進行特征的篩選。
協方差只能用于衡量2個變量之間的相關性,衡量多個變量之間的相關性需要協方差矩陣。
4.協方差的上界
如果:var(x)=θ12var(x) = \theta_1^2var(x)=θ12? var(y)=θ22var(y) = \theta_2^2var(y)=θ22? 則:|cov(x,y) ≤θ1?θ2\le\theta_1*\theta_2≤θ1??θ2?|
5.協方差矩陣:
對于n個隨機變量{x1,x2,....,xnx_1,x_2,....,x_nx1?,x2?,....,xn?},任意兩個元素xi,xjx_i , x_jxi?,xj?都可以得到一個協方差,從而形成一個n*n的矩陣,其中協方差矩陣是對稱陣。
相關系數
1.peason相關系數
- 定義:Px,y=cov(x,y)/(var(x)?var(y))P_{x,y}=cov(x,y)/\sqrt(var(x)*var(y))Px,y?=cov(x,y)/(?var(x)?var(y))
- 性質:
- 由協方差的上界可知:|P|$\le$1
- 當且僅當x,y線性相關時,等號成立
- 相關系數是標準尺度下的協方差。上面關于協方差的性質也適用于相關系數。
- 相關系數取值在(0,1)之間,越接近1則說明兩變量的相關性越大,越接近0則說明相關性越低。(線性相關)。
2.相關系數矩陣(可畫出熱圖)
對多個變量兩兩之間求取相關系數,并組成矩陣,則為相關系數矩陣
- 相關系數矩陣可以發現特征之間的相關性
- 協方差矩陣歸一化后便可以得到相關系數矩陣
- 實際中使用較多的是相關系數矩陣而非協方差矩陣,因為協方差矩陣取值范圍較大,表現不明顯
- 使用相關系數矩陣的目的是為了進行特征的選擇。
- 負相關也是相關。當兩個特征向量之間的相關系數為1,則可以去除其中的某一個。
3.獨立和不相關
- 一般指的不相關指的是線性獨立
- 如果x,y不相關,則x,y沒有線性關系,但是可以有其他函數關系。
1.2.4 矩
1.定義:對于隨機變量X,X的K階原點矩為:E(XK)E(X^K)E(XK)
X的K階中心矩為:E[X?E(X)]KE[X-E(X)]^KE[X?E(X)]K
從上面給出的矩的定義,我們可以看出期望是一階原點矩 , 方差是二階中心距
- 變異系數:標準差和均值的比值為變異系數
- 偏度(skewness):三階矩
- 峰度(kurtosis):四階矩
1.3 重要的定理與不等式
1.jenson不等式(函數f凸函數)
- 基本jenson不等式定義:
f(θx+(1?θ)y)≤θf(x)+(1?θ)f(y)f(\theta x + (1-\theta)y)\le\theta f(x) + (1-\theta)f(y)f(θx+(1?θ)y)≤θf(x)+(1?θ)f(y)
2.如果:θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0θ1?,θ2?,...,θk?≥0 且 θ1+θ2+...+θk=1\theta_1+\theta_2+...+\theta_k=1θ1?+θ2?+...+θk?=1 則:f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ...+\theta_kx_k) \le\theta_1f(x_1)+...+\theta_kf(x_k)f(θ1?x1?+...+θk?xk?)≤θ1?f(x1?)+...+θk?f(xk?)
2.切比雪夫不等式
度量兩個變量之間的距離方法有很多,但是要滿足一些條件。同時,也可以度量兩個分布之間的距離,即度量兩個分布之間的相關性,這個對于機器學習是非常有用的,常常可以作為損失函數。
- 定義:設隨機變量X的期望為u ,方差為θ2\theta^2θ2,對于任意的正數ξ\xiξ,有:P(∣X?u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2P(∣X?u∣≤ξ)≤θ2/ξ2
- 意義:切比雪夫不等式說明,X的方差越小,事件(∣X?u∣≤ξ)(|X-u|\le\xi)(∣X?u∣≤ξ)的發生概率越大。
- 該不等式證明了方差的意義。
- 該不等式可以證明大數定理。
3.大數定理
- 定義:設隨機變量x1,x2,...,xnx_1,x_2,...,x_nx1?,x2?,...,xn?相互獨立,并且具有相同的期望u和方差θ2\theta^2θ2,取前K個隨機變量,且該K個隨機變量的期望為Yn=1/k∑i=1kxiY_n = 1/k\sum_{i=1}^kx_iYn?=1/k∑i=1k?xi?,則有:limn?>∝p(∣Yn?u∣<ξ)=1lim_{n->\propto}p(|Y_n - u| < \xi)=1limn?>∝?p(∣Yn??u∣<ξ)=1
- 意義:當樣本的數目足夠大時,樣本的期望逼近于整體的期望,這是統計方法的基石。
4.中心極限定理 - 定義:設隨機變量x1,x2,...,xnx_1,x_2,...,x_nx1?,x2?,...,xn?相互獨立,且服從同一分布,具有相同的期望u和方差θ2\theta^2θ2,則有:Yn=∑i=1n(xi?n?u)/((n)?θ)Y_n=\sum_{i=1}^n(x_i-n*u)/(\sqrt(n)*\theta)Yn?=∑i=1n?(xi??n?u)/((?n)?θ)
- 意義:實際問題中,很多隨機變量現象可以看成很多獨立影響的綜合反應,且這些獨立因素服從正太分布。
1.4 用樣本估計參數
1.矩估計
- 基本思想:首先假設整體的滿足某個分布,其中給分布中有n個未知的參數。然后,由樣本求出n對中心距和原點矩,接著由假設的分布公式求出這n對中心距和原點矩,通過等式關系,解出這n個參數,得出整體的分布。
該方法的計算量比較大,在實踐過程中用的比較少。常用于兩個分布相關性的比較。
2.最大似然估計
- 貝葉斯公式:P(D/A)=(P(A/D)?P(A))/P(D)P(D/A) = (P(A/D)*P(A))/P(D)P(D/A)=(P(A/D)?P(A))/P(D)
- 物理意義:公式中D為樣本數據,A為模型參數或者隨機事件。則P(D/A)P(D/A)P(D/A)表示A在數據D上的后驗概率,P(A/D)為A在數據D上的條件概率,P(A)為A的先驗概率
- 發生過的概率就是最大的
- 設問題A中的模型有3個:m1,m2,m3m_1,m_2,m_3m1?,m2?,m3?,抽取的樣本數為K:x1,x2,...,xkx_1,x_2,...,x_kx1?,x2?,...,xk?,設3個模型的分布為:f(m1),f(m2),f(m3)f(m_1),f(m_2),f(m_3)f(m1?),f(m2?),f(m3?),則已將抽取樣本的概率為P=∑i=1kfi(m1)?fi(m2)?fi(m3)P=\sum_{i=1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)P=∑i=1k?fi?(m1?)?fi?(m2?)?fi?(m3?),然后求概率P最大時對應的參數既可以求出整體的分布。
總結
以上是生活随笔為你收集整理的机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 算法(15)-leetcode-expl
- 下一篇: 学点数学(5)--线性规划对偶形式的理解