李航《统计学习方法》笔记
雖然書名是統計學習,但是卻是機器學習領域中和重要的一本參考書。當前的機器學習中機器指計算機,但是所運用的方法和知識是基于數據(對象)的統計和概率知識,建立一個模型,從而對未來的數據進行預測和分析(目的)。
第一段提到的模型是很重要的,事實上,模型(model)是統計學習方法的三要素之一,其他另外兩個策略strategy和算法algorithm也是圍繞模型的,簡單來說,策略決定了使用什么樣的損失函數(代價函數)評價當前模型的好壞。算法決定了具體如何對模型進行最優化求解。有人說搞深度學習就是在不斷地修改loss函數,優化算法,仔細一想其實也有點道理。。。但是里面其實還是大有文章的。下面仔細研究一下三要素。
三要素之模型
模型,也就是建模,以全書主要講的監督學習為例,就是希望通過已知的訓練數據,得到模型,這個模型能充分描述數據的規律,從而預測數據。這里暗合了一個假設:訓練數據和測試數據是獨立同分布的。這里有兩種情況:第一種認為數據的分布是基于某個分布概率隨機分布的,對應概率模型,用條件概率P(Y|X)表示,;另外一種是認為數據嚴格遵循某種函數關系,即決策函數,其對應非概率模型,用決策函數f(X)表示。
監督學習得到的模型的方法有兩大類:生成方法generative approach和判別方法discriminative approach.生成方法是先由先學習得到的聯合概率分布求解得到條件概率,典型的生成模型有樸素貝葉斯法和隱馬爾科夫模型。判別模型是由數據直接學習決策函數或者條件概率,典型的判別模型有k近鄰法、感知機、決策樹、最大熵模型、支持向量機、提升方法和條件隨機場等。在GAN網絡中有生成模型和判別模型,尋找二者的納什均衡。這里的生成模型和生成方法應該不是同一個東西。
模型的選擇可以通過正則化或者交叉驗證。正則化是下面提到的結構風險最小化的實現。交叉驗證主要是看如何分割數據集,反復進行訓練,驗證,測試。
三要素之策略
策略也就是如何選擇loss/cost 函數,相當于一個標尺,通過這個標尺,我們才能知道想要達到一個什么目標(這個目標與代價函數有關,但絕不單單是最小化代價函數那么簡單)。在這第一個需要選擇的就是代價函數的選擇,有0-1損失函數,平方損失函數,絕對損失函數,對數損失函數等。因為我們把輸入的樣本看作隨機變量,每一個通過損失函數求得一個損失值,但是它們的期望才可以代表整個模型的好壞,這就需要用到聯合分布概率。但同時聯合分布是未知的,如果已知也就不需要監督學習了。所以繼續用統計的知識,我們通過求均值,用平均損失,即經驗風險來代替期望風險。到這里離我們找到目標還差一步,我們可以直接以經驗風險最小化作為目標,極大似然估計就是這個道理,但是會造成過擬合,結果就是模型為了最大程度地適應樣本數據,最后得到了一個很復雜模型,但是只是對已有樣本擬合得好,因為無節制地遷就數據,包括一些特殊點和噪點,而沒有找到普適性的一般規律,對測試數據的預測能力不佳。于是為了,平衡擬合性和模型的復雜度,新構造了一個函數作為我們最小化的目標,這就是結構風險,在經驗風險的基礎上加一個正則化項,它與模型的復雜度成正比。貝葉斯估計中的最大后驗估計就是結果風險最小化的一個例子。
主要說一下結構風險最小化。結構風險最小化等價于正則化(規則化),因為對測試數據有良好的預測效果是不言而喻的要求,規則化還要求模型盡量簡單,權衡了經驗風險和模型復雜度。這就是參考鏈接1提到的奧卡姆剃刀原理(Occam’s razor)。到這里,監督學習變成了一個最優化問題,最小化一個目標函數,函數由兩項構成,一個是Loss函數,一個是正則項。
不同的機器學習模型的Loss函數和正則化項都不同。鏈接1主要講了正則項的選取。正則化項有兩個作用,一個是起懲罰的作用,與模型復雜度成正比;一個是利用領域的先驗知識對模型的特性有一個整體把握,控制模型特性,如使模型具有稀疏、低秩、平滑等特性。
三要素之算法
算法就沒什么好說的了,因為統計學習到最后都歸結為最優化問題,解析解不存在的情況下就用各種最優化算法尋找最優解。比如BP算法。我理解的caffe中solve.prototxt文件就是描述求解過程的。
最后提一下監督學習的應用:分類問題、標注問題、回歸問題。這三類問題是由輸入X和輸出Y的連續還是離散的狀態區分的。因為我們得到模型后最終的任務還是對數據預測。當輸出變量Y是離散的,預測問題便成為分類問題,得到的模型便可叫做分類器。這里和圖像分割一樣,有兩個重要的指標:精確率precision和召回率recall。當輸入是一個觀測序列,輸出是標記序列或者狀態序列,那么預測問題就是標注問題。狀態是有限的,但是序列經過組合就可能變成無限的了。常用的統計方法有隱馬爾科夫模型和條件隨機場。輸入與輸出變量都是連續變量的預測問題稱為回歸問題,最常用的是最小二乘法求解。
關于預測數據的能力的表示,有一個專業的詞叫泛化能力,通過泛化誤差上界來衡量。這里有一個重要的不等式,還沒有自己試著去證明。
Reference:
1.https://blog.csdn.net/zouxy09/article/details/24971995/
?
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的李航《统计学习方法》笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CV中的经典网络模型
- 下一篇: PHP之MVC项目实战