机器学习——统计学习方法——第1章 统计学习及监督学习概论
監(jiān)督學(xué)習(xí)是從標(biāo)注數(shù)據(jù)中學(xué)習(xí)模型的機器學(xué)習(xí)問題,是統(tǒng)計學(xué)習(xí)的重要組成部分。
1.1 統(tǒng)計學(xué)習(xí)
統(tǒng)計學(xué)習(xí)的特點
統(tǒng)計學(xué)習(xí)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科。
特點
“學(xué)習(xí)”定義: 一個系統(tǒng)能夠通過執(zhí)行某個過程改進它的性能。
統(tǒng)計學(xué)習(xí)就是計算機系統(tǒng)通過運行數(shù)據(jù)及統(tǒng)計方法提高系統(tǒng)性能的機器學(xué)習(xí)
統(tǒng)計學(xué)習(xí)的對象
統(tǒng)計學(xué)習(xí)的對象是數(shù)據(jù)。它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預(yù)測中去。
統(tǒng)計學(xué)習(xí)的前提:統(tǒng)計學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性。
統(tǒng)計學(xué)習(xí)的目的
對數(shù)據(jù)的預(yù)測與分析是通過構(gòu)建概率統(tǒng)計模型實現(xiàn)的。
統(tǒng)計學(xué)習(xí)總的目標(biāo):考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型,以使模型能對數(shù)據(jù)進行準(zhǔn)確的預(yù)測與分析,同時也要考慮盡可能地提高學(xué)習(xí)效率。
統(tǒng)計學(xué)習(xí)的方法
統(tǒng)計學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測和分析。
統(tǒng)計學(xué)習(xí)方法概括:從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集合出發(fā),假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的;并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)的集合,稱為假設(shè)空間;應(yīng)用某個評價準(zhǔn)則,從假設(shè)空間中選取一個最優(yōu)模型,使它對已知的訓(xùn)練數(shù)據(jù)及未知的測試數(shù)據(jù)在給定的評價準(zhǔn)則下有最優(yōu)的預(yù)測。
最優(yōu)模型的選取由算法實現(xiàn),包括模型的假設(shè)空間、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法,簡稱為三要素:模型、策略和算法。
實現(xiàn)統(tǒng)計學(xué)習(xí)方法的步驟:
(1)得到一個有限的訓(xùn)練數(shù)據(jù)的集合;
(2)確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合;
(3)確定模型選擇的準(zhǔn)則,即學(xué)習(xí)的策略;
(4)實現(xiàn)求解最優(yōu)模型的算法,即學(xué)習(xí)的算法;
(5)通過學(xué)習(xí)方法選擇最優(yōu)模型;
(6)利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)及進行預(yù)測或分析。
1.2 統(tǒng)計學(xué)習(xí)的分類
基本分類
統(tǒng)計學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)等。
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是指從標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。
實質(zhì)是學(xué)習(xí)輸入到輸出的映射的統(tǒng)計規(guī)律。
(1)輸入空間、特征空間與輸出空間
輸入空間:輸入所有可能取值的集合
輸出空間:輸出所有可能取值的集合
特征空間:所有特征向量存在的空間稱為特征空間。特征向量是每個具體輸入(實例)的表示。特征空間的每一個維度對應(yīng)一個特征。
輸入輸出變量用大寫字母表示,輸入輸出變量的取值用小寫字母表示.
輸入實例x的特征向量記作:
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)集合中學(xué)習(xí)模型,對測試數(shù)據(jù)進行預(yù)測。訓(xùn)練集通常表示為
輸入與輸出對又稱為樣本或樣本點。
預(yù)測任務(wù):
回歸問題:輸入輸出變量均為連續(xù)變量的預(yù)測問題;
分類問題:輸出變量為有限個離散變量的預(yù)測問題;
標(biāo)注問題:輸入變量與輸出變量均為變量序列的預(yù)測問題。
(2)聯(lián)合概率分布
監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出隨機變量X和Y遵循聯(lián)合概率分布P(X,Y)。
訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)被看作是依聯(lián)合概率分布獨立同分布產(chǎn)生的。
監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè):X和Y具有聯(lián)合概率分布
(3)假設(shè)空間
監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個從輸入到輸出的映射,由模型表示。
模型屬于由輸入空間到輸出空間的映射的集合,即假設(shè)空間。
假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定。
(4)問題的形式化
監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個模型,再用模型對測試樣本集進行預(yù)測。
監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測兩個過程。
無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)是指從無標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題,本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結(jié)構(gòu)。
強化學(xué)習(xí)
強化學(xué)習(xí)是指智能系統(tǒng)在與環(huán)境的連續(xù)互動中學(xué)習(xí)最優(yōu)行為策略的機器學(xué)習(xí)問題,本質(zhì)是學(xué)習(xí)最優(yōu)的序貫決策。
智能系統(tǒng)的目標(biāo)不是短期獎勵的最大化,而是長期累積獎勵的最大化 。
強化學(xué)習(xí)過程中,系統(tǒng)不斷地試錯,以達到學(xué)習(xí)最優(yōu)策略的目的。
半監(jiān)督學(xué)習(xí)與主動學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是指利用標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。
主動學(xué)習(xí)是指機器不斷主動給出實例讓教師進行標(biāo)注,然后利用標(biāo)注數(shù)據(jù)學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。
兩者更接近于監(jiān)督學(xué)習(xí)。
按模型分類
1.概率模型與非概率模型(確定性模型)
2.線性模型與非線性模型
3.參數(shù)化模型與非參數(shù)化模型
按算法分類
在線學(xué)習(xí):每次接受一個樣本,進行預(yù)測,之后學(xué)習(xí)模型,并不斷重復(fù)。
批量學(xué)習(xí):一次接受所有數(shù)據(jù),學(xué)習(xí)模型,之后進行預(yù)測。
按技巧分類
1.貝葉斯學(xué)習(xí)
在概率模型的學(xué)習(xí)和推理中,利用貝葉斯定理,計算在給定數(shù)據(jù)條件下模型的條件概率(后驗概率),并應(yīng)用這個原理進行模型的估計,以及對數(shù)據(jù)的預(yù)測。
2.核方法
使用核函數(shù)表示和學(xué)習(xí)非線性模型的一種機器學(xué)習(xí)方法,可以用于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。
1.3 統(tǒng)計學(xué)習(xí)方法三要素
方法=模型+策略+算法
模型
首先考慮的問題是學(xué)習(xí)什么樣的模型。 在監(jiān)督學(xué)習(xí)過程中,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間包含所有可能的條件概率分布或決策函數(shù)為。
策略
接著需要考慮按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型,目標(biāo)在于從假設(shè)空間中選取最優(yōu)的模型。
損失函數(shù)度量模型一次預(yù)測的好壞,風(fēng)險函數(shù)度量平均意義下模型的好壞。
損失函數(shù)和風(fēng)險函數(shù)
當(dāng)樣本容量N趨于無窮的時,經(jīng)驗風(fēng)險趨于期望風(fēng)險,自然有想法用經(jīng)驗風(fēng)險估計期望風(fēng)險。這涉及到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。
經(jīng)驗風(fēng)險最小化與結(jié)構(gòu)風(fēng)險最小化
經(jīng)驗風(fēng)險最小化:
經(jīng)驗風(fēng)險最小的模型就是最優(yōu)的模型:
其中f為假設(shè)空間
問題:當(dāng)樣本容量很小時,學(xué)習(xí)的效果未必很好,會產(chǎn)生“過擬合”現(xiàn)象。
結(jié)構(gòu)風(fēng)險最小化:
為了防止“過擬合” 而提出的策略,等價于正則化。結(jié)構(gòu)風(fēng)險在經(jīng)驗風(fēng)險上加上表示模型復(fù)雜度的正則化項(罰項)。結(jié)構(gòu)風(fēng)險定義:
其中J(f)為模型復(fù)雜度,模型越復(fù)雜它就越大。
結(jié)構(gòu)風(fēng)險最小的模型就是最優(yōu)的模型:
算法
算法是指學(xué)習(xí)模型中的具體計算方法。
統(tǒng)計學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間中選擇最優(yōu)模型,最后需要考慮用什么樣的計算方法求解最優(yōu)模型,統(tǒng)計學(xué)習(xí)問題歸結(jié)為最優(yōu)化問題。
1.4 模型評估與模型選擇
1.4.1訓(xùn)練誤差與測試誤差
訓(xùn)練誤差(訓(xùn)練數(shù)據(jù)集平均損失):
測試誤差(測試數(shù)據(jù)集平均損失):
例:當(dāng)損失函數(shù)是0-1損失時,測試誤差就成了常見的測試數(shù)據(jù)集的誤差率:
相應(yīng)地,常見的測試數(shù)據(jù)集的準(zhǔn)確率為:
顯然:
1.4.2過擬合與模型選擇
過擬合:一味追求提高對訓(xùn)練數(shù)據(jù)的預(yù)側(cè)能力
過擬合是指學(xué)習(xí)時選擇的模型所包含的參數(shù)過多,以至出現(xiàn)對己知數(shù)據(jù)預(yù)測得很好,但對未知數(shù)據(jù)預(yù)測得很差的現(xiàn)象。
描述了訓(xùn)練誤差和測試誤差與模型的復(fù)雜度之間的關(guān)系。當(dāng)模型的復(fù)雜度增大時,訓(xùn)練誤差會逐漸減小井趨向于 0; 而測試誤差會先減小,達到最小值后又增大。當(dāng)選擇的模型復(fù)雜度過大時,過擬合現(xiàn)象就會發(fā)生。
1.5 正則化與交叉驗證
1.5.1正則化
模型選擇的典型方法是正則化,正則化是結(jié)構(gòu)風(fēng)險最小化策略的實現(xiàn),是在經(jīng)驗風(fēng)險的基礎(chǔ)上加一個正則化項(一般為模型復(fù)雜度的單調(diào)遞增函數(shù))或罰項。
奧卡姆剃刀原理應(yīng)用于模型選擇時變?yōu)橐韵孪敕?在所有可能選擇的模型中,能夠很好地解釋己知數(shù)據(jù)并且十分簡單才是最好的模型,也就是應(yīng)該選擇的模型。
1.5.2交叉驗證
另一種常用的模型選擇方法是交叉驗證。
如果訓(xùn)練數(shù)據(jù)樣本充足的情況下,進行模型選擇的簡單方法是隨機的將這些數(shù)據(jù)分成三部分:訓(xùn)練集、驗證集和測試集。
交叉驗證基本想法
重復(fù)地使用數(shù)據(jù),把給定的數(shù)據(jù)進行切分,將切分的數(shù)據(jù)集組合為訓(xùn)練集與測試集,在此基礎(chǔ)上反復(fù)地進行訓(xùn)練、測試以及模型選擇.
簡單交叉驗證
首先隨機地將己給數(shù)據(jù)分為兩部分,一部分作為訓(xùn)練集,另一部分作為測試集;然后用訓(xùn)練集在各種條件下訓(xùn)練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
S折交叉臉證(應(yīng)用最多)
首先隨機地將已給數(shù)據(jù)切分為S個互不相交、大小相同的子集;然后利用S-1個子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測試模型;將這一過程對可能的S種選擇重復(fù)進行;最后選出S次評測中平均側(cè)試誤差最小的模型.
留一文叉驗證
S折交叉驗證的特殊情形是S=N(數(shù)據(jù)缺乏時用),N是給定數(shù)據(jù)集的容量
1.6 泛化能力
泛化誤差
學(xué)習(xí)方法的泛化能力是指由該方法學(xué)習(xí)到的模型對未知數(shù)據(jù)的預(yù)測能力。
事實上泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險。
泛化誤差:對學(xué)習(xí)到的f(X)模型對未知數(shù)據(jù)預(yù)測的誤差。
泛化誤差上界
學(xué)習(xí)方法的泛化能力分析是通過研究泛化誤差概率上界進行的,簡稱泛化誤差上界。
泛化誤差上界性質(zhì):
1.7 生成模型與判別模型
監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個模型,應(yīng)用這一模型,對給定的輸入預(yù)測相應(yīng)的輸出。
這個模型的一般形式為決策函數(shù):Y=f(X)或者條件概率分布:P(Y|X)
監(jiān)督學(xué)習(xí)方法又可以分為生成方法和判別方法。所學(xué)到模型稱生成模型和判別模型。
生成方法(模型表示了給定輸入X產(chǎn)生輸出Y的生成關(guān)系)由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布 P(X,Y) 然后求出條件概率分布 P(Y|X)作為預(yù)測的模型,即生成模型:
判別方法由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù) f(X) 或者條件概率分布 P(Y|X) 作為預(yù)測的
模型,即判別模型。判別方法關(guān)心的是對給定的輸入X應(yīng)該預(yù)測什么樣的輸出Y。
生成方法的特點:
判別方法的特點:
1.8 監(jiān)督學(xué)習(xí)應(yīng)用
監(jiān)督學(xué)習(xí)的應(yīng)用主要在三個方面:分類問題、標(biāo)注問題和回歸問題。
1.8.1分類問題
在監(jiān)督學(xué)習(xí)中,當(dāng)輸出變量Y取有限個離散值時,預(yù)測問題便成為分類問題,這時,輸入變量X可以是離散的,也可以是連續(xù)的。
監(jiān)督學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)一個分類模型或分類決策函數(shù),稱為分類器。分類器對新的輸入進行輸出的預(yù)測,稱為分類。
分類準(zhǔn)確率(評價分類器性能的指標(biāo)) 定義:對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比,也就是損失函數(shù)是 0-1 損失時測試數(shù)據(jù)集上的準(zhǔn)確率。
例:二類分類(類別為兩個)常用評價指標(biāo)精確度與召回率
精確率定義為:P=TP/(TP+FP)
召回率定義為:R=TP/(TP+FN)
此外,還有 F1 值,是精確率和召回率的調(diào)和均值,即:
1.8.2標(biāo)注問題
標(biāo)注問題是分類問題的一個推廣,標(biāo)注問題又是更復(fù)雜的結(jié)構(gòu)預(yù)測問題的簡單形式。
標(biāo)注問題的輸入是一個觀測序列,輸出是一個標(biāo)記序列或狀態(tài)序列。
標(biāo)注問題的目標(biāo)在于學(xué)習(xí)一個模型,使它能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測。
評價標(biāo)注模型的指標(biāo)與評價分類模型的指標(biāo)一樣。
1.8.3回歸問題
回歸用于預(yù)測輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時,輸出變量的值隨之發(fā)生的變化。
回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)。
回歸問題的學(xué)習(xí)等價于函數(shù)擬合:選擇一條函數(shù)曲線使其很好地擬合己知數(shù)據(jù)且很好地預(yù)測未知數(shù)據(jù)(參考1.4)。
按照輸入變量的個數(shù),分為一元回歸和多元回歸
按照輸入變量和輸出變量之間關(guān)系的類型即模型的類型,分為線性回歸和非線性回歸
總結(jié)
以上是生活随笔為你收集整理的机器学习——统计学习方法——第1章 统计学习及监督学习概论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C# 中的eval ()函数
- 下一篇: 判断事件源的另一方法