数学学习笔记--概率论
2. 概率論
2.1 概率分布與隨機變量
2.1.1 機器學習為什么要使用概率
事件的概率是衡量該事件發生的可能性的量度。雖然在一次隨機試驗中某個事件的發生是帶有偶然性的,但那些可在相同條件下大量重復的隨機試驗卻往往呈現出明顯的數量規律。
機器學習通常必須處理不確定量,有時候也需要處理隨機量。幾乎所有的活動都需要一些在不確定性存在的情況下進行推理的能力。
不確定性和隨機性可能來自多個方面,不確定性有 3 種可能的來源:
在很多情況下,采用簡單而不確定的規則要比復雜而確定的規則更加的實用。
可以使用概率論來量化不確定性。 用概率來表示一種信任度,概率直接和事件發生的頻率相聯系的被稱為頻率派概率,比如說某件事發生的概率是 p,這表示如果反復試驗無限次,有 p 的比例是發生這件事情;而涉及確定性水平的稱為貝葉斯概率,比如說醫生在對一個病人的診斷中判斷其患某個病的概率是 p。
概率論在機器學習中扮演著一個核心角色,因為機器學習算法的設計通常依賴于對數據的概率假設。
例如在機器學習(Andrew Ng)的課中,會有一個樸素貝葉斯假設就是條件獨立的一個例子。該學習算法對內容做出假設,用來分辨電子郵件是否為垃圾郵件。假設無論郵件是否為垃圾郵件,單詞x出現在郵件中的概率條件獨立于單詞y。很明顯這個假設不是不失一般性的,因為某些單詞幾乎總是同時出現。然而,最終結果是,這個簡單的假設對結果的影響并不大,且無論如何都可以讓我們快速判別垃圾郵件。
2.1.2 變量與隨機變量有什么區別
隨機變量(random variable)是可以隨機地取不同數值的變量。
它表示隨機現象(在一定條件下,并不總是出現相同結果的現象稱為隨機現象)中各種結果的實值函數(一切可能的樣本點)。例如某一時間內公共汽車站等車乘客人數,電話交換臺在一定時間內收到的呼叫次數等,都是隨機變量的實例。
隨機變量與模糊變量的不確定性的本質差別在于,后者的測定結果仍具有不確定性,即模糊性。
變量與隨機變量的區別:
當變量的取值的概率不是1時,變量就變成了隨機變量;當隨機變量取值的概率為1時,隨機變量就變成了變量。
比如:
當變量xxx值為100的概率為1的話,那么x=100x=100x=100就是確定了的,不會再有變化,除非有進一步運算.
當變量xxx的值為100的概率不為1,比如為50的概率是0.5,為100的概率是0.5,那么這個變量就是會隨不同條件而變化的,是隨機變量,取到50或者100的概率都是0.5,即50%。
2.1.3 隨機變量與概率分布的聯系
一個隨機變量僅僅表示一個可能取得的狀態,還必須給定與之相伴的概率分布來制定每個狀態的可能性。用來描述隨機變量或一簇隨機變量的每一個可能的狀態的可能性大小的方法,就是概率分布(probability distribution)**.
隨機變量可以分為離散型隨機變量和連續型隨機變量。
相應的描述其概率分布的函數是:
-
概率質量函數(Probability Mass Function, PMF):描述離散型隨機變量的概率分布,通常用大寫字母 PPP表示。
-
概率密度函數(Probability Density Function, PDF):描述連續型隨機變量的概率分布,通常用小寫字母ppp表示。
2.1.4 離散型隨機變量和概率質量函數
PMF 將隨機變量能夠取得的每個狀態映射到隨機變量取得該狀態的概率。
- 一般而言,P(x)P(x)P(x) 表示時X=xX=x?X=x的概率,概率為 1 表示 $ X=x$ 是確定的,概率是 0 表示 $ X=x$ 是不可能的;
- 有時候為了防止混淆,要明確寫出隨機變量的名稱P(P(P(x=x)=x)=x)
- 有時候需要先定義一個隨機變量,然后制定它遵循的概率分布 x 服從P(P(P(x)))
PMF 可以同時作用于多個隨機變量,即聯合概率分布(joint probability distribution) P(X=x,Y=y)P(X=x,Y=y)P(X=x,Y=y)表示 X=xX=xX=x和Y=yY=y?Y=y同時發生的概率,也可以簡寫成 P(x,y)P(x,y)P(x,y).
如果一個函數PPP是隨機變量 XXX 的 PMF, 那么它必須滿足如下三個條件:
- PPP的定義域必須是的所有可能狀態的集合
- ?x∈?x∈?x∈x, $0 \leq P(x) \leq 1 $.
- ∑x∈XP(x)=1∑_{x∈X} P(x)=1∑x∈X?P(x)=1. 我們把這一條性質稱之為歸一化的(normalized),如果不滿足這條性質,那么可能某件事情發生的概率會是大于 1。
2.1…5 連續型隨機變量和概率密度函數
如果一個函數ppp是x的PDF,那么它必須滿足如下幾個條件
- ppp的定義域必須是x的所有可能狀態的集合。
- ?x∈X,p(x)≥0?x∈X,p(x)≥0?x∈X,p(x)≥0. 注意,我們并不要求$ p(x)≤1$,因為此處 p(x)p(x)p(x)不是表示的對應此狀態具體的概率,而是概率的一個相對大小(密度)。具體的概率,需要積分去求。
- ∫p(x)dx=1∫p(x)dx=1∫p(x)dx=1, 積分下來,總和還是1,概率之和還是1.
注:PDFp(x)p(x)p(x)并沒有直接對特定的狀態給出概率,給出的是密度,相對的,它給出了落在面積為 δxδxδx的無線小的區域內的概率為$ p(x)δx$.
由此,我們無法求得具體某個狀態的概率,我們可以求得的是 某個狀態 xxx 落在 某個區間[a,b][a,b][a,b]內的概率為$ \int_{a}^{b}p(x)dx$.
2.1.6 舉例理解條件概率
條件概率公式如下:
P(A∣B)=P(A∩B)/P(B)P(A|B) = P(A\cap B) / P(B) P(A∣B)=P(A∩B)/P(B)
說明:在同一個樣本空間Ω\OmegaΩ中的事件或者子集AAA與BBB,如果隨機從Ω\OmegaΩ中選出的一個元素屬于BBB,那么下一個隨機選擇的元素屬于AAA 的概率就定義為在BBB的前提下AAA的條件概率。
條件概率文氏圖示意如圖1.1所示。
圖1.1 條件概率文氏圖示意
根據文氏圖,可以很清楚地看到在事件B發生的情況下,事件A發生的概率就是P(A?B)P(A\bigcap B)P(A?B)除以P(B)P(B)P(B)。
舉例:一對夫妻有兩個小孩,已知其中一個是女孩,則另一個是女孩子的概率是多少?(面試、筆試都碰到過)
窮舉法:已知其中一個是女孩,那么樣本空間為男女,女女,女男,則另外一個仍然是女生的概率就是1/3。
條件概率法:P(女∣女)=P(女女)/P(女)P(女|女)=P(女女)/P(女)P(女∣女)=P(女女)/P(女),夫妻有兩個小孩,那么它的樣本空間為女女,男女,女男,男男,則P(女女)P(女女)P(女女)為1/4,P(女)=1?P(男男)=3/4P(女)= 1-P(男男)=3/4P(女)=1?P(男男)=3/4,所以最后1/31/31/3。
這里大家可能會誤解,男女和女男是同一種情況,但實際上類似姐弟和兄妹是不同情況。
2.1.7 聯合概率與邊緣概率聯系區別
區別:
聯合概率:聯合概率指類似于P(X=a,Y=b)P(X=a,Y=b)P(X=a,Y=b)這樣,包含多個條件,且所有條件同時成立的概率。聯合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率。
邊緣概率:邊緣概率是某個事件發生的概率,而與其它事件無關。邊緣概率指類似于P(X=a)P(X=a)P(X=a),P(Y=b)P(Y=b)P(Y=b)這樣,僅與單個隨機變量有關的概率。
聯系:
聯合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯合分布。
2.1.8 條件概率的鏈式法則
由條件概率的定義,可直接得出下面的乘法公式:
乘法公式 設A,BA, BA,B是兩個事件,并且P(A)>0P(A) > 0P(A)>0, 則有
P(AB)=P(B∣A)P(A)P(AB) = P(B|A)P(A) P(AB)=P(B∣A)P(A)
推廣
P(ABC)=P(C∣AB)P(B∣A)P(A)P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(C∣AB)P(B∣A)P(A)
一般地,用歸納法可證:若P(A1A2...An)>0P(A_1A_2...A_n)>0P(A1?A2?...An?)>0,則有
P(A1A2...An)=P(An∣A1A2...An?1)P(An?1∣A1A2...An?2)...P(A2∣A1)P(A1)=P(A1)∏i=2nP(Ai∣A1A2...Ai?1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1}) P(A1?A2?...An?)=P(An?∣A1?A2?...An?1?)P(An?1?∣A1?A2?...An?2?)...P(A2?∣A1?)P(A1?)=P(A1?)i=2∏n?P(Ai?∣A1?A2?...Ai?1?)
任何多維隨機變量聯合概率分布,都可以分解成只有一個變量的條件概率相乘形式。
2.1.9 獨立性和條件獨立性
獨立性
兩個隨機變量xxx和yyy,概率分布可以表示成兩個因子乘積形式,一個因子只包含xxx,另一個因子只包含yyy,則可以說這兩個隨機變量相互獨立(independent)**。
條件有時為不獨立的事件之間帶來獨立,有時也會把本來獨立的事件,因為此條件的存在,而失去獨立性。
舉例:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y)P(XY)=P(X)P(Y), 事件XXX和事件YYY獨立。此時給定ZZZ,
P(X,Y∣Z)=?P(X∣Z)P(Y∣Z)P(X,Y|Z) \not = P(X|Z)P(Y|Z) P(X,Y∣Z)?=P(X∣Z)P(Y∣Z)
事件獨立時,聯合概率等于概率的乘積。這是一個非常好的數學性質,然而不幸的是,無條件的獨立是十分稀少的,因為大部分情況下,事件之間都是互相影響的。
條件獨立性
給定ZZZ的情況下,XXX和YYY條件獨立,當且僅當
X⊥Y∣Z?P(X,Y∣Z)=P(X∣Z)P(Y∣Z)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z) X⊥Y∣Z?P(X,Y∣Z)=P(X∣Z)P(Y∣Z)
XXX和YYY的關系依賴于ZZZ,而不是直接產生。
舉例定義如下事件:
XXX:明天下雨;
YYY:今天的地面是濕的;
ZZZ:今天是否下雨;
ZZZ事件的成立,對XXX和YYY均有影響,然而,在ZZZ事件成立的前提下,今天的地面情況對明天是否下雨沒有影響。
2.1.10 常見公式
概率基礎的公式
- P(A+B)=P(A)+P(B)?P(AB)P(A+B) = P(A)+P(B)-P(AB)P(A+B)=P(A)+P(B)?P(AB)
- P(A?B)=P(A)?P(B)P(A-B)=P(A)-P(B)P(A?B)=P(A)?P(B)
- P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A)P(AB)=P(A)P(B∣A)
全概率
P(A)=∑iP(Bi)P(A∣Bi)P(A) = \sum_i P(B_i)P(A|B_i)P(A)=∑i?P(Bi?)P(A∣Bi?)
貝葉斯
P(B∣A)=P(B)P(A∣B)P(A)P(B|A) = \frac{P(B)P(A|B)}{P(A)}P(B∣A)=P(A)P(B)P(A∣B)?
2.1.11 應用
抽球
n 個球,對于有放回和無放回的抽取方式
-
有放回的抽取,抽取 m 個排成一列,求不同排列的數量:nmn^mnm
-
沒有放回的抽取,抽取 m 個排成一列,求不同排列的數量:n!(n?m)!\frac{n!}{(n-m)!}(n?m)!n!?
2.2 常見概率分布
2.2.1 均勻分布
離散隨機變量的均勻分布:假設 X 有 k 個取值,則均勻分布的概率質量函數為:
p(X=xi)=1k,i=1,2,?,kp(X=x_i) = \frac{1}{k},i=1,2,\cdots,k p(X=xi?)=k1?,i=1,2,?,k
連續隨機變量的均勻分布:假設 X 在 [a, b] 上均勻分布,則其概率密度函數為:
$$
p(X=x) =
\begin{cases}
0,x\notin[a,b]\
\frac{1}{b-a},x\in[a, b]
\end{cases}
$$
2.2.1 Bernoulli分布
Bernoulli分布(伯努利分布,0-1分布)是單個二值隨機變量分布, 單參數?\phi?∈[0,1]控制,?\phi?給出隨機變量等于1的概率. 主要性質有:
KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? P(x=1) &= \phi…
其期望和方差為:
KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? E_x[x] &= \phi…
適用范圍: 伯努利分布適合對離散型隨機變量建模.
Multinoulli分布也叫范疇分布, 是單個k值隨機分布,經常用來表示對象分類的分布. 其中kkk是有限值.Multinoulli分布由向量p?∈[0,1]k?1\vec{p}\in[0,1]^{k-1}p?∈[0,1]k?1參數化,每個分量pip_ipi?表示第iii個狀態的概率, 且pk=1?1Tpp_k=1-1^Tppk?=1?1Tp.這里1T1^T1T表示元素全為1的列向量的轉置,其實就是對于向量p中除了k的概率之和。可以重寫為pk=1?∑0k?1pip_k=1-\sum_{0}^{k-1}p_ipk?=1?∑0k?1?pi? 。
補充二項分布、多項分布:
二項分布,通俗點硬幣拋多次。二項分布(Binomial distribution)是n重伯努利試驗成功次數的離散概率分布。
定義成功 x 次的概率為:f(x)=Cnxpx(1?p)n?x,x∈0,1,?,nf(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}f(x)=Cnx?px(1?p)n?x,x∈0,1,?,n。
期望是 np, 方差是 np(1-p)
多項式分布(Multinomial Distribution)是二項式分布的推廣。二項式做n次伯努利實驗,規定了每次試驗的結果只有兩個,如果現在還是做n次試驗,只不過每次試驗的結果可以有多m個,且m個結果發生的概率互斥且和為1,則發生其中一個結果X次的概率就是多項式分布。
2.2.3 高斯分布
高斯也叫正態分布(Normal Distribution), 概率度函數如下:
N(x;μ,σ2)=12πσ2exp(?12σ2(x?μ)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21??exp(?2σ21?(x?μ)2)
其中, μ\muμ和σ\sigmaσ分別是均值和標準差, 中心峰值x坐標由μ\muμ給出, 峰的寬度受σ\sigmaσ控制, 最大點在x=μx=\mux=μ處取得, 拐點為x=μ±σx=\mu\pm\sigmax=μ±σ
正態分布中,±1σ\sigmaσ、±2σ\sigmaσ、±3σ\sigmaσ下的概率分別是68.3%、95.5%、99.73%,這3個數最好記住。
此外, 令μ=0,σ=1\mu=0,\sigma=1μ=0,σ=1高斯分布即簡化為標準正態分布:
N(x;μ,σ2)=12πexp(?12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1??exp(?21?x2)
對概率密度函數高效求值:
N(x;μ,β?1)=β2πexp(?12β(x?μ)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β?1)=2πβ??exp(?21?β(x?μ)2)
其中,β=1σ2\beta=\frac{1}{\sigma^2}β=σ21?通過參數β∈(0,∞)\beta∈(0,\infty)β∈(0,∞)來控制分布精度。
2.2.4 何時采用正態分布
問: 何時采用正態分布?
答: 缺乏實數上分布的先驗知識, 不知選擇何種形式時, 默認選擇正態分布總是不會錯的, 理由如下:
正態分布的推廣:
正態分布可以推廣到RnR^nRn空間, 此時稱為多位正態分布, 其參數是一個正定對稱矩陣Σ\SigmaΣ:
N(x;μ?,Σ)=1(2π)ndet(Σ)exp(?12(x??μ?)TΣ?1(x??μ?))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ?,Σ)=(2π)ndet(Σ)1??exp(?21?(x?μ?)TΣ?1(x?μ?))
對多為正態分布概率密度高效求值:
N(x;μ?,β??1)=det(β?)(2π)nexp(?12(x??μ?)Tβ(x??μ?))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right) N(x;μ?,β??1)=det(β?)?(2π)nexp(?21?(x?μ?)Tβ(x?μ?))
此處,β?\vec\betaβ?是一個精度矩陣。
2.2.5 指數分布
深度學習中, 指數分布用來描述在x=0x=0x=0點處取得邊界點的分布, 指數分布定義如下:
p(x;λ)=λIx≥0exp(?λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx≥0?exp(?λx)
指數分布用指示函數Ix≥0I_{x\geq 0}Ix≥0?來使xxx取負值時的概率為零。
2.2.6 Laplace 分布(拉普拉斯分布)
一個聯系緊密的概率分布是 Laplace 分布(Laplace distribution),它允許我們在任意一點 μ\muμ處設置概率質量的峰值
Laplace(x;μ;γ)=12γexp(?∣x?μ∣γ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1?exp(?γ∣x?μ∣?)
期望是 μ\muμ,方差是 2γ22\gamma^22γ2
拉普拉斯分布比高斯分布更加尖銳和狹窄,在正則化中通常會利用這個性質。
2.2.7 泊松分布
假設已知事件在單位時間(或者單位面積)內發生的平均次數為λ,則泊松分布描述了:事件在單位時間(或者單位面積)內發生的具體次數為 k 的概率。 概率密度函數:
p(X=k;λ)=e?λλkk!p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!} p(X=k;λ)=k!e?λλk?
期望是 λ\lambdaλ,方差是 λ\lambdaλ.
2.2.8 Dirac分布和經驗分布
Dirac分布可保證概率分布中所有質量都集中在一個點上. Diract分布的狄拉克δ\deltaδ函數(也稱為單位脈沖函數)定義如下:
p(x)=δ(x?μ),x≠μp(x)=\delta(x-\mu), x\neq \mu p(x)=δ(x?μ),x?=μ
∫abδ(x?μ)dx=1,a<μ<b\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b ∫ab?δ(x?μ)dx=1,a<μ<b
Dirac 分布經常作為經驗分布(empirical distribution)的一個組成部分出現
p^(x?)=1m∑i=1mδ(x??x?(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^?(x)=m1?i=1∑m?δ(x?x(i))
其中, m個點x1,...,xmx^{1},...,x^{m}x1,...,xm是給定的數據集, 經驗分布將概率密度1m\frac{1}{m}m1?賦給了這些點.
當我們在訓練集上訓練模型時, 可以認為從這個訓練集上得到的經驗分布指明了采樣來源.
適用范圍: 狄拉克δ函數適合對連續型隨機變量的經驗分布.
關于經驗分布的另一個重要觀點是,它是訓練數據的似然最大的那個概率密度函數。
2.2.9 混合分布
通過組合一些簡單的概率分布來定義新的概率分布也是很常見的。
一種通用的組合方法就是構造混合分布。混合分布由一些組件分布構成。
一個混合分布的例子就是:實值變量的經驗分布對于每一個訓練實例來說,就是以 Dirac 分布為組件的混合分布。
混合模型是組合簡單概率分布來生成更豐富的一種簡單策略。一個非常強大且常見的混合模型就是高斯混合模型。
它的組件是高斯分布,每個組件有自己的參數,均值和協方差矩陣。
2.3 期望、方差、協方差、相關系數
2.3.1 期望
函數 f(x) 關于某個分布 P(x) 的期望或者期望值是指,當 x 由 P 產生, f 作用于 x 的時候,f(x) 的平均值。
在概率論和統計學中,數學期望(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變量平均取值的大小。
- 線性運算: E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+cE(ax+by+c)=aE(x)+bE(y)+c
- 推廣形式: E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}E(∑k=1n?ai?xi?+c)=∑k=1n?ai?E(xi?)+c
- 函數期望:設f(x)f(x)f(x)為xxx的函數,則f(x)f(x)f(x)的期望為
- 離散函數: E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}E(f(x))=∑k=1n?f(xk?)P(xk?)
- 連續函數: E(f(x))=∫?∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}E(f(x))=∫?∞+∞?f(x)p(x)dx
注意:
- 函數的期望大于等于期望的函數(Jensen(詹森)不等式,即E(f(x))?f(E(x))E(f(x))\geqslant f(E(x))E(f(x))?f(E(x))
- 一般情況下,乘積的期望不等于期望的乘積。
- 如果XXX和YYY相互獨立,則E(xy)=E(x)E(y)E(xy)=E(x)E(y)E(xy)=E(x)E(y)。
2.3.2 方差
概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。方差是一種特殊的期望。定義為:
Var(x)=E((x?E(x))2)Var(x) = E((x-E(x))^2) Var(x)=E((x?E(x))2)
方差性質:
1)Var(x)=E(x2)?E(x)2Var(x) = E(x^2) -E(x)^2Var(x)=E(x2)?E(x)2
2)常數的方差為0;
3)方差不滿足線性性質;
4)如果XXX和YYY相互獨立, Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)Var(ax+by)=a2Var(x)+b2Var(y)
2.3.3 協方差
協方差是衡量兩個變量線性相關性強度及變量尺度。 兩個隨機變量的協方差定義為:
Cov(x,y)=E((x?E(x))(y?E(y)))Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((x?E(x))(y?E(y)))
方差是一種特殊的協方差。當X=YX=YX=Y時,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)。
協方差性質:
1)獨立變量的協方差為0。
2)協方差計算公式:
Cov(∑i=1maixi,∑j=1mbjyj)=∑i=1m∑j=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1∑m?ai?xi?,j=1∑m?bj?yj?)=i=1∑m?j=1∑m?ai?bj?Cov(xi?yi?)
3)特殊情況:
Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)
2.3.4 相關系數
相關系數是研究變量之間線性相關程度的量。兩個隨機變量的相關系數定義為:
Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y)?Cov(x,y)?
相關系數的性質:
1)有界性。相關系數的取值范圍是 [-1,1],可以看成無量綱的協方差。
2)值越接近1,說明兩個變量正相關性(線性)越強。越接近-1,說明負相關性越強,當為0時,表示兩個變量沒有相關性。
2.4 信息論
信息論主要研究的是對一個信號包含新的多少進行量化。
信息論的一個基本想法是一個不太可能發生的事件居然發生了,比一個非常可能發生的事件發生,能提供更多的信息。
如果想通過這種基本想法來量化信息,需要滿足這個 3 個性質:
- 非常可能發生的事件信息論要比較少,并且極端情況下,確保能夠發生的事件應該沒有信息量;
- 較不可能發生的事件具有更高的信息量;
- 獨立事件應具有增量的信息。例如,投擲的硬幣兩次正面朝上傳遞的信息,應該是投擲一次硬幣證明朝上的信息量的兩倍。
這里定義一個事件 x=xxx 的自信息為:
I(x)=?logP(x)I(x) = -log P(x) I(x)=?logP(x)
自信息量只能處理單個的輸出。可以用香農熵來對整個概率分布中的不確定性總量進行量化:
H(x)=?Ex~P[I(x)]=?Ex~P[logP(x)]H(x) = -E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)] H(x)=?Ex~P?[I(x)]=?Ex~P?[logP(x)]
也記作 H§。這里的 E 表示的就是期望,也就是說一個分布的香農熵是指遵循這個分布的事件所產生的期望信息總量。
而如果對于一個隨機變量有兩個單獨的概率分布 P(x) 和 Q(x),那么可以使用KL 散度來衡量這兩個分布的差異:
DKL(P∣∣Q)=Ex~P[logP(x)logQ(x)]=Ex~P[logP(x)?logQ(x)]D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)] DKL?(P∣∣Q)=Ex~P?[logQ(x)logP(x)?]=Ex~P?[logP(x)?logQ(x)]
舉例:對于一個二值隨機分布的香農熵,H(x)=?(1?p)log(1?p)?plogpH(x) =- (1-p)log(1-p)-plogpH(x)=?(1?p)log(1?p)?plogp
KL散度的性質有:
一個和 KL 散度很相似的是交叉熵,即 H(P,Q)=H(P)+DKL(P∣∣Q)H(P,Q)=H(P)+D_{KL}(P||Q)H(P,Q)=H(P)+DKL?(P∣∣Q):
H(P,Q)=?Ex~PlogQ(x)H(P,Q)=-E_{x\sim P}logQ(x) H(P,Q)=?Ex~P?logQ(x)
針對 Q 最小化交叉熵等價于最小化 KL 散度,因為 Q 并不參與被省略的那一項。
在計算這些量的時候,經常會遇到 0log0 這個表達式,一般對這個的處理是 limx?>0xlogx=0lim_{x->0}xlogx = 0limx?>0?xlogx=0
總結
以上是生活随笔為你收集整理的数学学习笔记--概率论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【高并发】面试官:性能优化有哪些衡量指标
- 下一篇: 5101是多大的电阻_贴片电阻1206-