统计学习及监督学习概论
1.統計學習
簡介:統計學習(statistical learning)是關于計算機基于數據構建概率統計模型并運用模型對數據進行預測與分析的一門學科。統計學習由監督學習(supervised learning)、無監督學習(unsupervised learning)和強化學習(reinforcement learning)等組成。
1)監督學習
習慣上輸入變量寫作XXX,輸出變量寫作YYY。輸入與輸出變量的取值用小寫字母表示,輸入變量的取值寫作xxx,輸出變量的取值寫作yyy。變量可以是標量或向量,都用相同類型字母表示。除特別聲明,本書中向量均為列向量。輸入實例xxx的特征向量記作x=(x(1),x(2),...x(i),...x(n))Tx=(x^{(1)},x^{(2)},...x^{(i)},...x^{(n)})^Tx=(x(1),x(2),...x(i),...x(n))T
x(i)x^{(i)}x(i)表示xxx的第iii個特征。注意x(i)x^{(i)}x(i)與xix_ixi?不同,常用xix_ixi?表示多個輸入變量中的第iii個變量,即xi=(xi(1),xi(2),...xi(n))Tx_i=(x_i^{(1)},x_i^{(2)},...x_i^{(n)})^Txi?=(xi(1)?,xi(2)?,...xi(n)?)T
訓練數據集通常表示為 TTT={(x1,y1),(x2,y2),...,(xN,yN)(x_1,y_1),(x_2,y_2),...,(x_N,y_N)(x1?,y1?),(x2?,y2?),...,(xN?,yN?)}
2)泰勒中值定理:
如果函數f(x)f(x)f(x)在含有x0x_0x0?的某個開區間(a,b)(a,b)(a,b)內具有直到(n+1)(n+1)(n+1)階導數,則對任一x∈(a,b)x\in(a,b)x∈(a,b),有f(x)=f(x0)+f′(x0)(x?x0)+f′′(x0)2!(x?x0)2+...+fn(x0)n!(x?x0)n+Rn(x)f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac {f''(x_0)}{2!}(x-x_0)^2+...+\frac {f^n(x_0)}{n!}(x-x_0)^n+R_n(x)f(x)=f(x0?)+f′(x0?)(x?x0?)+2!f′′(x0?)?(x?x0?)2+...+n!fn(x0?)?(x?x0?)n+Rn?(x)稱之為f(x)f(x)f(x)按(x?x0)(x-x_0)(x?x0?)的冪展開的nnn次泰勒多項式,其中Rn(x)=f(n+1)(ξ)(n+1)!(x?x0)n+1R_n(x)=\frac {f^{(n+1)}(\xi)}{(n+1)!}(x-x_0)^{n+1}Rn?(x)=(n+1)!f(n+1)(ξ)?(x?x0?)n+1,Rn(x)R_n(x)Rn?(x)稱之為拉格朗日型余項,這里ξ\xiξ是x0x_0x0?與xxx之間的某個值。
帶有拉格朗日型余項的麥克勞林公式
如果取x0=0x_0=0x0?=0,則ξ\xiξ在0與xxx之間,因此可以令ξ=θx(0<θ<1)\xi=\theta x(0<\theta<1)ξ=θx(0<θ<1),從而泰勒公式變成較簡單的形式,即所謂帶有拉格朗日型余項的麥克勞林公式f(x)=f(0)+f′(0)x+f′′(0)2!x2+...+fn(0)n!xn+f(n+1)(θx)(n+1)!x(n+1),0<θ<1f(x)=f(0)+f'(0)x+\frac{f''(0)}{2!}x^2+...+\frac{f^n(0)}{n!}x^n+\frac{f^{(n+1)}(\theta x)}{(n+1)!}x^{(n+1)},0<\theta<1f(x)=f(0)+f′(0)x+2!f′′(0)?x2+...+n!fn(0)?xn+(n+1)!f(n+1)(θx)?x(n+1),0<θ<1
帶有佩亞諾型余項的nnn階泰勒公式
f(x)f(x)f(x)按(x?x0)(x-x_0)(x?x0?)的冪展開的帶有佩亞諾型余項的nnn階泰勒公式f(x)=f(x0)+f′(x0)(x?x0)+f′′(x0)2!(x?x0)2+...+fn(x0)n!(x?x0)n+Rn(x)f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac {f''(x_0)}{2!}(x-x_0)^2+...+\frac {f^n(x_0)}{n!}(x-x_0)^n+R_n(x)f(x)=f(x0?)+f′(x0?)(x?x0?)+2!f′′(x0?)?(x?x0?)2+...+n!fn(x0?)?(x?x0?)n+Rn?(x),其中Rn(x)=o[(x?x0)n]R_n(x)=o[(x-x_0)^n]Rn?(x)=o[(x?x0?)n]
3)損失函數和風險函數
監督學習問題時在假設空間FFF中選取模型fff作為決策函數,對于給定的輸入XXX,由f(X)f(X)f(X)給出相應的輸出YYY,這個輸出的預測值f(X)f(X)f(X)與真實值YYY可能一致也可能不一致,用一個損失函數(loss function)或代價函數(cost function)來度量預測錯誤的程度。損失函數是f(X)f(X)f(X)和YYY的非負實值函數,記作L(Y,f(X))L(Y,f(X))L(Y,f(X))
常用的損失函數:
1)0-1損失函數(0-1 loss function)L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))= \begin{cases} 1, & \text { $Y\neq f(X)$} \\ 0, & \text{$Y=f(X)$ } \end{cases} L(Y,f(X))={1,0,??Y?=f(X)Y=f(X)??
2)平方損失函數(quadratic loss function)L(Y,f(X))=(Y?f(X))2L(Y,f(X))=(Y-f(X))^2L(Y,f(X))=(Y?f(X))2
3)絕對損失函數(absolute loss function)L(Y,f(X))=∣Y?f(X)∣L(Y,f(X))=\mid Y-f(X)\midL(Y,f(X))=∣Y?f(X)∣
4)對數損失函數(logarithmic loss function)或對數似然損失函數(log-likelihood loss function)L(Y,P(Y∣X))=?logP(Y∣X)L(Y,P(Y\mid X))=-logP(Y\mid X)L(Y,P(Y∣X))=?logP(Y∣X)
損失函數值越小,模型就越好,由于模型的輸入、輸出(X,Y)(X,Y)(X,Y)是隨機變量,遵循聯合概率分布P(X,Y)P(X,Y)P(X,Y),所以損失函數的期望是Rexp(f)=Ep[L(Y,f(X))]=∫xyL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_p[L(Y,f(X))]=\int_{xy}L(y,f(x))P(x,y){\rm d}x{\rm d}yRexp?(f)=Ep?[L(Y,f(X))]=∫xy?L(y,f(x))P(x,y)dxdy,這是理論上模型f(X)f(X)f(X)關于聯合分布的平均意義下的損失,稱為風險損失函數(risk function)或期望損失(expected loss)
給定一個訓練數據集:TTT={(x1,y1),(x2,y2),...,(xN,yN)(x_1,y_1),(x_2,y_2),...,(x_N,y_N)(x1?,y1?),(x2?,y2?),...,(xN?,yN?)},模型f(X)f(X)f(X)關于訓練數據集的平均損失稱為經驗風險(empirical risk)或者經驗損失(empirical loss),記作RempR_{emp}Remp?:Remp(f)=1N∑i=1NL(yi,f(xi))R_{emp}(f)=\frac1N\sum_{i=1}^NL(y_i,f(x_i))Remp?(f)=N1?i=1∑N?L(yi?,f(xi?))
期望風險Rexp(f)R_{exp}(f)Rexp?(f)是模型關于聯合分布的期望損失,經驗風險Remp(f)R_{emp}(f)Remp?(f)是模型關于訓練樣本集的平均損失。根據大數定律,當樣本容量N趨于無窮時,經驗風險Remp(f)R_{emp}(f)Remp?(f)趨于期望風險Rexp(f)R_{exp}(f)Rexp?(f),所以一個很自然的想法是用經驗風險估計期望風險。但是,由于現實中訓練樣本數目有限,甚至很小,所以用經驗風險估計期望風險并不理想,要對經驗風險進行一定的矯正。這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
正則化:模型選擇的典型方法是正則化(regularization)。正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項(regularizer)或罰項(penalty term)。正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化值越大。比如,正則化項可以是模型參數向量的范數。正則化一般具有如下形式:minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)\underset{f\in\mathcal{F}}{min}\frac1N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)f∈Fmin?N1?i=1∑N?L(yi?,f(xi?))+λJ(f)其中第1項是經驗風險,第2項是正則化項,λ?0\lambda\geqslant0λ?0為調整兩者之間關系的系數。正則化項可以取不同的形式,例如,回歸問題中,損失函數是評分損失,正則化項可以是參數向量的L2L_2L2?范數:L(w)=1N∑i=1N(f(xi;w)?yi)2+λ2∣∣w∣∣2L(w)=\frac1N\sum_{i=1}^N(f(x_i;w)-y_i)^2+\frac \lambda 2{\mid \mid w \mid \mid}^2L(w)=N1?i=1∑N?(f(xi?;w)?yi?)2+2λ?∣∣w∣∣2這里,∣∣w∣∣||w||∣∣w∣∣表示參數向量www的L2L_2L2?范數。正則化項也可以是參數向量的L1范數L_1范數L1?范數:L(w)=1N∑i=1N(f(xi;w)?yi)2+λ∣∣w∣∣1L(w)=\frac1N\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda {\mid \mid w \mid \mid}_1L(w)=N1?i=1∑N?(f(xi?;w)?yi?)2+λ∣∣w∣∣1?這里,∣∣w∣∣1||w||_1∣∣w∣∣1?表示參數向量www的L1L_1L1?范數
第一項的經驗風險較小的模型可能較復雜(有多個非零參數),這時第2項的模型復雜度會較大。正則化的作用是選擇經驗風險與模型復雜度同時較小的模型。
{0范數:向量中非0元素的個數1范數:為絕對值之和2范數:通常意義上的模\begin{cases} 0范數:向量中非0元素的個數\\ 1范數:為絕對值之和\\ 2范數:通常意義上的模\\ \end{cases} ??????0范數:向量中非0元素的個數1范數:為絕對值之和2范數:通常意義上的模?
總結
以上是生活随笔為你收集整理的统计学习及监督学习概论的全部內容,希望文章能夠幫你解決所遇到的問題。