机器学习与高维信息检索 - Note 2 - 统计决策和机器学习
2. 統計決策和機器學習
統計決策和機器學習
- 2. 統計決策和機器學習
- 定理2.2
- 2.1 監督決策的一般設置和泛化誤差
- 2.2 k近鄰
- 2.3 維度詛咒
基本問題是,對于隨機變量X∈RpX\in \mathbb{R}^{p}X∈Rp中的某些觀測,我們想獲得隨機變量YYY的 "最可能 "值。為簡單起見,我們假設YYY在R\mathbb{R}R中的實現。我們進一步假設得到的聯合概率密度pX,Y(x,y)p_{X, Y}(x, y)pX,Y?(x,y)已經給出。
例2.1
XXX是一個人的(矢量)圖像。 在下面的圖2.1中,這個觀測表示了一張只包含一個像素的圖片,它的灰色程度各不相同。
Y={1:Xis?picture?of?person?A0:Xis?not?Y= \begin{cases}1: & X \text { is picture of person } \mathrm{A} \\ 0: & X \text { is not }\end{cases} Y={1:0:?X?is?picture?of?person?AX?is?not??
其目的是預測給定XXX的YYY。如果有個叫A\mathrm{A}A的人,他主要穿著深色衣服
圖2.1: 兩個離散隨機變量XXX和YYY的聯合概率分布
有理由認為,事件的各自概率表現為:p42>p32>p22>p12p_{42}>p_{32}>p_{22}>p_{12}p42?>p32?>p22?>p12? 和p11>p21>p31>p41p_{11}>p_{21}>p_{31}>p_{41}p11?>p21?>p31?>p41?.
為了確定 "最可能 "的含義,我們考慮平方損失函數1{ }^{1}1
1{ }^{1}1 注意,其他損失函數也是可能的,而且也確實有意義,選擇平方距離只是出于方便的原因。
L(Y,f(X))=(Y?f(X))2.(2.1)L(Y, f(X))=(Y-f(X))^{2} .\tag{2.1} L(Y,f(X))=(Y?f(X))2.(2.1)
我們要選擇fff,使損失函數的預期值,即所謂的預期預測誤差
EPE?(f)=E[L(Y,f(X))]\operatorname{EPE}(f)=\mathbb{E}[L(Y, f(X))] EPE(f)=E[L(Y,f(X))]
是最小的。使用第1.2小節中描述的工具進行簡單計算,可以得到
EPE?(f)=E[L(Y,f(X))]=E[(Y?f(X))2]=∫Rp×R(y?f(x))2pX,Y(x,y)dxdy=∫Rp∫R(y?f(x))2pY∣X=x(y)dy?=:EY∣X=x[(Y?f(X))2]pX(x)dx=EXEY∣X=x[(Y?f(X))2]\begin{aligned} \operatorname{EPE}(f) &=\mathbb{E}[L(Y, f(X))]=\mathbb{E}\left[(Y-f(X))^{2}\right]\\&=\int_{\mathbb{R}^{p} \times \mathbb{R}}(y-f(x))^{2} p_{X, Y}(x, y) \mathrmze8trgl8bvbq x \mathrm{~d} y\\ &=\int_{\mathbb{R}^{p}} \underbrace{\int_{\mathbb{R}}(y-f(x))^{2} p_{Y \mid X=x}(y) \mathrmze8trgl8bvbq y}_{=: \mathbb{E}_{Y \mid X=x}\left[(Y-f(X))^{2}\right]}{p_{X}}(x) \mathrmze8trgl8bvbq x \\ &=\mathbb{E}_{X} \mathbb{E}_{Y \mid X=x}\left[(Y-f(X))^{2}\right] \end{aligned} EPE(f)?=E[L(Y,f(X))]=E[(Y?f(X))2]=∫Rp×R?(y?f(x))2pX,Y?(x,y)dx?dy=∫Rp?=:EY∣X=x?[(Y?f(X))2]∫R?(y?f(x))2pY∣X=x?(y)dy??pX?(x)dx=EX?EY∣X=x?[(Y?f(X))2]?
因此f(X)=argmin?cEY∣X=x[(Y?c)2]f(X)=\underset{c}{arg\min }\mathbb{E}_{Y \mid X=x}\left[(Y-c)^{2}\right]f(X)=cargmin?EY∣X=x?[(Y?c)2]。由于E[?]\mathbb{E}[\cdot]E[?]的線性,這可簡化為
f(X)=arg?min?c(EY∣X=x[Y2]?2cEY∣X=x[Y]+c2).(2.2)f(X)=\underset{c}{\arg \min }\left(\mathbb{E}_{Y \mid X=x}\left[Y^{2}\right]-2 c \mathbb{E}_{Y \mid X=x}[Y]+c^{2}\right) . \tag{2.2} f(X)=cargmin?(EY∣X=x?[Y2]?2cEY∣X=x?[Y]+c2).(2.2)
二次方項很容易被最小化,最優值為
f(X)=EY∣X=x[Y].(2.3)f(X)=\mathbb{E}_{Y \mid X=x}[Y] . \tag{2.3} f(X)=EY∣X=x?[Y].(2.3)
定理2.2
在給定XXX的情況下,如果最佳預測是以損失的平方來衡量的,對YYY的最佳預測是條件平均數。
如上所述,條件平均數作為最佳預測依賴于我們使用平方損失作為質量測量的事實。我們可以證明,如果我們采用絕對值∣Y?f(X)∣|Y-f(X)|∣Y?f(X)∣作為損失函數–所謂的?1\ell_{1}?1?損失,最佳預測是條件中值。雖然這個聲明的嚴格證明超出了本講義的范圍,但我們可以很容易地看到,中位數是經驗?1\ell_{1}?1?損失最小化的最佳值
arg?min?c1n∑i∣yi?c∣.(2.4?)\underset{c}{\arg \min } \frac{1}{n} \sum_{i}\left|y_{i}-c\right| . \tag{2.4 } cargmin?n1?i∑?∣yi??c∣.(2.4?)
我們只需要一個非光滑凸優化的結果,即對于有子梯度的凸函數,當且僅當c?c^{*}c?處的子梯度包含0時,才能實現c?c^{*}c?的最小值。在我們的例子中,經驗?1\ell_{1}?1?損失相對于ccc的子梯度是1n∑isign?(yi?c)\frac{1}{n} \sum_{i} \operatorname{sign}\left(y_{i}-c\right)n1?∑i?sign(yi??c)對于c≠yic \neq y_{i}c?=yi? 與{1n∑i≠jsign?(yi?c)+t∣?1≤t≤1}\left\{\frac{1}{n} \sum_{i \neq j} \operatorname{sign}\left(y_{i}-c\right)+t \mid-1 \leq t \leq 1\right\}{n1?∑i?=j?sign(yi??c)+t∣?1≤t≤1} 對于c=yjc=y_{j}c=yj?。因此,我們看到,只有當小于ccc的yiy_{i}yi?的數量與大于c的yiy_{i}yi?的數量相同時,ccc處的子梯度才包含零。在奇數nnn的情況下,ccc必須與yiy_{i}yi?的(n+1)/2(n+1)/2(n+1)/2的最大值相吻合。這正是中位數的定義。
2.1 監督決策的一般設置和泛化誤差
讓我們從一個更高層次的角度來恢復上述章節的內容。我們引入了一個損失函數,基于訓練樣本(xi,yi),i=1,…,N\left(x_{i}, y_{i}\right), i=1, \ldots, N(xi?,yi?),i=1,…,N,可以從一個給定的函數類F\mathcal{F}F中學習最佳預測函數fff。這種方法被稱為監督學習方法,因為它們需要一個訓練集,其中每個樣本xix_{i}xi?都有一個相應的yiy_{i}yi?。一般的問題陳述是:
讓(X,Y)∈Rp(X, Y)\in \mathbb{R}^{p}(X,Y)∈Rp中的隨機變量,讓F\mathcal{F}F是來自Rp?R\mathbb{R}^{p}\Rightarrow\mathbb{R}Rp?R中的一類函數。這些函數可以被有限的參數化,例如Θ∈RM\Theta \in \mathbb{R}^{M}Θ∈RM。此外,讓L:R×R→R0+L: \mathbb{R} \times \mathbb{R} \rightarrow \mathbb{R}_{0}^{+}L:R×R→R0+?是一個損失函數,用來衡量YYY和f(X)f(X)f(X)的偏差。監督下的預測方法的目的是在f^∈F\hat{f} \in \mathcal{F}f^?∈F中找到最小的預期預測誤差E[L(Y,f(X)]\mathbb{E}[L(Y, f(X)]E[L(Y,f(X)]。
事實上,為了建立一個有監督的機器學習方法,我們需要弄清楚三個問題。
-
我們必須指定損失函數LLL。
-
我們必須指定函數類別F\mathcal{F}F。
-
由于在實踐中,我們不知道(X,Y)(X, Y)(X,Y)的聯合分布,我們需要訓練樣本(xi,yi),i=1,…,N\left(x_{i}, y_{i}\right), i=1, \ldots, N(xi?,yi?),i=1,…,N來接近預期預測誤差。
所以我們就得到了一個優化問題
f^=arg?min?f∈F1N∑i=1NL(yi,f(xi))(2.5)\hat{f}=\underset{f \in \mathcal{F}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \tag{2.5} f^?=f∈Fargmin?N1?i=1∑N?L(yi?,f(xi?))(2.5)
這些優化問題或多或少都很難解決,但原則上,它們可以以上述形式送入優化工具箱。
例子:線性回歸
對于線性回歸,我們選擇LLL為二次損失,即L(Y,f(X))=(Y?f(X))2L(Y, f(X))=(Y-f(X))^{2}L(Y,f(X))=(Y?f(X))2,我們選擇F\mathcal{F}F為仿射函數
f(x)=θ0+∑k=1pθkx(k),(2.6)f(x)=\theta_{0}+\sum_{k=1}^{p} \theta_{k} x^{(k)}, \tag{2.6} f(x)=θ0?+k=1∑p?θk?x(k),(2.6)
其中x(k)x^{(k)}x(k)是向量xxx的條目。考慮到NNN的訓練樣本,那么優化問題就是
Θ^=arg?min?θ0,…,θp1N∑i=1N(yi?θ0?∑k=1pθkxi(k))2.(2.7)\hat{\Theta}=\underset{\theta_{0}, \ldots, \theta_{p}}{\arg \min } \frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\theta_{0}-\sum_{k=1}^{p} \theta_{k} x_{i}^{(k)}\right)^{2} . \tag{2.7} Θ^=θ0?,…,θp?argmin?N1?i=1∑N?(yi??θ0??k=1∑p?θk?xi(k)?)2.(2.7)
定義:
對于一個給定的函數fff,經驗損失和預期損失之間的差異
GN(f)=E[L(Y,f(X)]?1N∑i=1NL(yi,f(xi)).(2.8)G_{N}(f)=\mathbb{E}\left[L(Y, f(X)\right]-\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right). \tag{2.8} GN?(f)=E[L(Y,f(X)]?N1?i=1∑N?L(yi?,f(xi?)).(2.8)
被稱為fff的泛化誤差。
根據大數定律,我們知道GNG_{N}GN?在NNN趨于無窮大時趨于0。然而,很多時候訓練樣本的數量是有限的,此外,收斂的速度高度依賴于(X,Y)(X, Y)(X,Y)的(未知)概率分布。因此,機器學習的一個目標是以高概率來約束泛化誤差。
在實踐中,我們使用交叉驗證(交叉熵 )來檢查fff與數據的匹配程度。
2.2 k近鄰
在實踐中,我們面臨的問題是我們不知道XXX和YYY的聯合分布,因此我們必須估計公式(2.3)中的條件平均值。通常情況下,這將通過給定特定實現XXX的YYY的相對頻率來完成。然而,在連續的情況下,問題出現了,即使在許多觀測值(xi,yi)\left(x_{i}, y_{i}\right)(xi?,yi?)中,也可能沒有xi=xx_{i}=xxi?=x。這個問題可以通過擴大xxx周圍的區域并考慮所有xix_{i}xi?接近期望的xxx的觀測來解決。這就引出了kkk近鄰的概念。
圖2.2: 給出事件(1,1),(2,5),(3,3),(4,1),(5,4)(1,1),(2,5),(3,3),(4,1),(5,4)(1,1),(2,5),(3,3),(4,1),(5,4)的二元分布(X,Y)(X, Y)(X,Y)。雖然EY∣X=4[Y]=5\mathbb{E}_{Y\mid X=4}[Y]=5EY∣X=4?[Y]=5,對3個近鄰的平均化提供了f^k=3(4)=(2+3+5)/3=10/3\hat{f}_{k=3}(4)=(2+3+5)/3=10/3f^?k=3?(4)=(2+3+5)/3=10/3。
kkk近鄰的方法是通過以下方式估計fff:
f^k(x)=average?(yi∣xi∈Nk(x)),?(2.9)\hat{f}_{k}(x)=\text { average }\left(y_{i} \mid x_{i} \in N_{k}(x)\right) \text {, } \tag{2.9} f^?k?(x)=?average?(yi?∣xi?∈Nk?(x)),?(2.9)
其中Nk(x)N_{k}(x)Nk?(x)表示xxx的kkk近鄰的集合。這里有兩個近似值。
-
預期是通過平均數來近似的。
-
在一個點上的條件被某些區域(在該點周圍)的條件所近似。
如果NNN是觀察值的數量,那么要注意以下幾點。如果NNN增加,xix_{i}xi?就會接近xxx。此外,如果kkk增加,平均數會趨向于期望值。更確切地說,在聯合概率測量的溫和條件下,我們有
lim?N,k→∞,kN→0f^(x)=EY∣X=x[Y].(2.10)\lim _{N, k \rightarrow \infty, \frac{k}{N} \rightarrow 0} \hat{f}(x)=\mathbb{E}_{Y \mid X=x}[Y] . \tag{2.10} N,k→∞,Nk?→0lim?f^?(x)=EY∣X=x?[Y].(2.10)
然而,樣本量NNN通常是有限的,因此樣本量是不足夠滿足條件的。
有兩種方法可以克服這個問題。
-
對fff施加模型假設,例如,f(x)≈xTβf(x) \approx x^{\mathrm{T}} βf(x)≈xTβ得到線性回歸。
-
通過 "降低"XXX的維度。這就導致了降維的動機。
找到f:[x1?xp]?[s1?sk]f:\left[\begin{array}{c}x_{1} \\ \vdots \\ x_{p} \end{array}\right] \mapsto \left[\begin{array}{c} s_{1}\\ \vdots \\ s_{k} \end{array}\right]f:????x1??xp???????????s1??sk??????,使fff保持觀測的 "內在 "距離。
2.3 維度詛咒
讓X∈RpX\in \mathbb{R}^{p}X∈Rp為隨機變量。有幾件事需要觀察。
首先,XXX的絕對噪聲隨著特征的數量(即隨著ppp)增加,因為噪聲在所有維度上都會累積。
第二,估計XXX的密度函數所需的觀測值數量隨著維度ppp的增加而急劇增加。密度函數通常是借助于一個發生率的相對頻率來估計的。作為一個例子,假設在一個一維空間中的NNN觀測值需要估計某個密度函數,達到預定的精度。如果觀察空間增加到2維,觀察的數量必須增加到N2N^{2}N2的數量才能保持同樣的精度。對于3維空間,大約需要N3N^{3}N3的觀測,以此類推。這意味著,為了使密度函數的估計具有相同的精度,所需的測量數量隨測量空間的維度呈指數增長。
維度詛咒的一個原因是空空間現象(Scott),它指出高維空間本質上是稀疏的。鑒于數據點均勻地分布在10維單位球體中,一個點離中心的距離超過0.9的概率小于35%。因此,高維分布中的尾部要比一維分布中的尾部重要得多。給定一個高維多變量隨機變量,有一個成分位于其分布的尾部,就足以使整個樣本位于共同密度函數的尾部。圖2.3說明了一維的情況。
圖2.3:對于一維隨機變量,大多數觀測值都在平均值附近。更高維度的情況則不然。
總結
以上是生活随笔為你收集整理的机器学习与高维信息检索 - Note 2 - 统计决策和机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习与高维信息检索 - Note 1
- 下一篇: 机器学习与高维信息检索 - Note 3