统计学习方法,李航
1.統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)、對(duì)象、目的、方法和研究
答:統(tǒng)計(jì)學(xué)習(xí)是一種以數(shù)據(jù)為研究對(duì)象,以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺(tái),以方法為中心,構(gòu)建概率統(tǒng)計(jì)模型并應(yīng)用模型進(jìn)行預(yù)測(cè)與分析的學(xué)科 12。統(tǒng)計(jì)學(xué)習(xí)的主要特點(diǎn)包括:(1)統(tǒng)計(jì)學(xué)習(xí)以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺(tái),是建立在計(jì)算機(jī)及網(wǎng)絡(luò)之上的;(2)統(tǒng)計(jì)學(xué)習(xí)以數(shù)據(jù)為研究對(duì)象,是數(shù)據(jù)驅(qū)動(dòng)的學(xué)科;(3)統(tǒng)計(jì)學(xué)習(xí)的目的是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析;(4)統(tǒng)計(jì)學(xué)習(xí)以方法為中心,構(gòu)建概率統(tǒng)計(jì)模型并應(yīng)用模型進(jìn)行預(yù)測(cè)與分析3 4。
統(tǒng)計(jì)學(xué)習(xí)的方法包括:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí) 5 6。其中,監(jiān)督學(xué)習(xí)是最常用的一種方法,其目的是通過已知輸入和輸出訓(xùn)練樣本來構(gòu)建一個(gè)分類或回歸模型,然后對(duì)新樣本進(jìn)行分類或回歸預(yù)測(cè) 6 7。
2.監(jiān)督學(xué)習(xí):基本概念,問題形式
答:監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練方式,是指利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程,也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí),是從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個(gè)功能的機(jī)器學(xué)習(xí)任務(wù) 1 2。監(jiān)督學(xué)習(xí)的問題形式包括分類問題和回歸問題3 4。
在監(jiān)督學(xué)習(xí)中,每個(gè)樣本都有一個(gè)標(biāo)簽或輸出值,而模型的目標(biāo)就是通過輸入數(shù)據(jù)來預(yù)測(cè)輸出值。監(jiān)督學(xué)習(xí)的基本概念包括:輸入空間、特征空間、輸出空間、假設(shè)空間、學(xué)習(xí)策略和損失函數(shù) 5 6。
3.統(tǒng)計(jì)學(xué)習(xí)的三要素:模型,策略,算法
答:統(tǒng)計(jì)學(xué)習(xí)方法由三要素構(gòu)成,即模型、策略和算法 1 2。其中,
模型是統(tǒng)計(jì)學(xué)習(xí)的最終結(jié)果,即決策函數(shù)或條件概率函數(shù),它被用來預(yù)測(cè)特定問題下,將來未知輸入的輸出結(jié)果。
策略是統(tǒng)計(jì)學(xué)習(xí)過程中的產(chǎn)生最優(yōu)模型的評(píng)價(jià)準(zhǔn)則,通常由模型對(duì)某個(gè)樣本一次預(yù)測(cè)的好壞程度評(píng)價(jià)的損失函數(shù)和模型對(duì)所有樣本平均意義下風(fēng)險(xiǎn)函數(shù)決定。
算法是指統(tǒng)計(jì)學(xué)習(xí)過程中具體的學(xué)習(xí)出模型的方法 3 4。
4.誤差與模型評(píng)估
答:模型評(píng)估用來評(píng)測(cè)模型的好壞。模型在訓(xùn)練集上的誤差通常稱為訓(xùn)練誤差或經(jīng)驗(yàn)誤差,而在新樣本上的誤差稱為泛化誤差。顯然,機(jī)器學(xué)習(xí)的目的是得到泛化誤差小的學(xué)習(xí)器。然而,在實(shí)際應(yīng)用中,新樣本是未知的,所以只能使訓(xùn)練誤差盡量小 1。
誤差評(píng)估方法有很多種,其中最常用的是均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和均方誤差1 (zhuanlan.zhihu.com) 2(zhuanlan.zhihu.com)。這些方法可以用來評(píng)估模型的預(yù)測(cè)誤差情況、擬合程度、模型穩(wěn)定性等方面。
5.過擬合與模型選擇
答:過擬合是指學(xué)習(xí)時(shí)選擇的模型所包含的參數(shù)過多,以致于出現(xiàn)這一模型對(duì)已知數(shù)據(jù)預(yù)測(cè)得很好,但對(duì)未知數(shù)據(jù)預(yù)測(cè)得很差的現(xiàn)象1 。為了避免過擬合,我們可以使用正則化、dropout等方法來減少模型的復(fù)雜度,或者使用更多的數(shù)據(jù)來訓(xùn)練模型 zh.wikipedia.org。
在機(jī)器學(xué)習(xí)中,模型選擇是一個(gè)重要的問題。模型選擇的目標(biāo)是在給定的學(xué)習(xí)問題上選擇一個(gè)最優(yōu)的模型。常用的模型選擇方法有交叉驗(yàn)證、貝葉斯模型選擇等 zhuanlan.zhihu.com。
6.正則化與交叉驗(yàn)證
答:正則化和交叉驗(yàn)證都是機(jī)器學(xué)習(xí)中常用的方法。
正則化是一種通過約束模型參數(shù)的大小來避免過擬合的方法。常用的正則化方法有L1正則化和L2正則化。L1正則化會(huì)使得一些參數(shù)變成0,從而實(shí)現(xiàn)特征選擇的效果;L2正則化會(huì)使得所有參數(shù)都變小,但不會(huì)變成0 cloud.tencent.com。
交叉驗(yàn)證是一種評(píng)估模型性能的方法。在交叉驗(yàn)證中,我們將數(shù)據(jù)集分成若干份,每次使用其中一份作為測(cè)試集,其余部分作為訓(xùn)練集。這樣可以避免過擬合,并且可以更好地評(píng)估模型的性能 bing.com blog.csdn.net。
7.泛化能力
答:泛化能力是指機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力,即在原有的數(shù)據(jù)集上添加新的數(shù)據(jù)集,通過訓(xùn)練輸出一個(gè)合理的結(jié)果 baike.baidu.com zhuanlan.zhihu.com。泛化能力是衡量模型優(yōu)劣的重要指標(biāo)之一,好的模型應(yīng)該具有較強(qiáng)的泛化能力。
8.生成模型與判別模型
答:Generative Modeling (生成模型)和Discriminative Modeling (判別模型)。生成模型和判別模型是機(jī)器學(xué)習(xí)中的兩種常見模型。生成模型是指通過學(xué)習(xí)樣本,形成多個(gè)Y分布,然后計(jì)算聯(lián)合概率P (X,Y),根據(jù)P (X,Y)的值預(yù)測(cè)新的樣本屬于哪個(gè)類。對(duì)于二分類問題,如果P (X,Y1)>P (X,Y2),則新樣本X判定為Y1。而判別模型是由訓(xùn)練數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f (X)或者條件概率分布P (X,Y)作為預(yù)測(cè)的模型,模型關(guān)心的是對(duì)給定的輸入X,應(yīng)該預(yù)測(cè)什么樣的輸出Y,與GM的不同在于不需要先學(xué)習(xí)出 聯(lián)合分布P (X,Y) cnblogs.com zhuanlan.zhihu.com。
生成模型建模的是聯(lián)合分布p(x,y),而判別模型建模的則是條件分布p(y|x)
zhuhu
9.分類問題,標(biāo)注問題與回歸問題
答:分類問題、標(biāo)注問題和回歸問題是機(jī)器學(xué)習(xí)中的三種常見問題。分類問題是指將數(shù)據(jù)集中的樣本分成若干類別,每個(gè)樣本只能屬于一個(gè)類別。標(biāo)注問題是指學(xué)習(xí)一個(gè)模型,使其能夠?qū)τ^測(cè)序列給出標(biāo)記序列作為預(yù)測(cè)?;貧w問題用于預(yù)測(cè)輸入變量和輸出變量之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時(shí),輸出變量的值隨之發(fā)生的變化?;貧w任務(wù)的特點(diǎn)是標(biāo)注的數(shù)據(jù)集具有數(shù)值型的目標(biāo)變量 zhuanlan.zhihu.com zhuanlan.zhihu.com。
10.感知機(jī):適用條件,輸入輸出,模型,策略,算法及其對(duì)偶形式
答:感知機(jī)是一種二分類的線性分類模型,輸入為實(shí)例的特征向量,輸出為實(shí)例的類別(取+1和-1)。感知機(jī)對(duì)應(yīng)于輸入空間中將實(shí)例劃分為兩類的分離超平面。感知機(jī)旨在求出該超平面,為求得超平面導(dǎo)入了基于誤分類的損失函數(shù),利用梯度下降法對(duì)損失函數(shù)進(jìn)行最優(yōu)化。感知機(jī)模型假設(shè)
輸入空間(特征向量)是 x ∈ R n x∈R^{n} x∈Rn,
輸出空間為 Y Y Y∈{?1,+1},輸入 x ∈ X x∈X x∈X表示實(shí)例的特征向量,對(duì)應(yīng)于輸入空間的點(diǎn),輸出 y ∈ Y y∈Y y∈Y表示實(shí)例的類別,
則由輸入空間到輸出空間的表達(dá)形式為: f ( x ) = s i g n ( w ? x + b ) f(x)=sign(w*x+b) f(x)=sign(w?x+b),其中 w w w、 b b b稱為模型的參數(shù), w ∈ R n w∈R^{n} w∈Rn稱為權(quán)值,b稱為偏置
zhuanlan.zhihu.com
zhuanlan.zhihu.com
zhuanlan.zhihu.com。
對(duì)偶形式:感知機(jī)的對(duì)偶形式是將原始形式中的權(quán)值向量 w w w和偏置 b b b表示為實(shí)例 x x x和標(biāo)記 y y y的線性組合的形式,通過求解其系數(shù)而求得 w w w和 b b b。對(duì)偶形式的優(yōu)點(diǎn)在于每次計(jì)算 X i X j X_{i}X_{j} Xi?Xj?時(shí)可通過直接查矩陣中的元素獲得,而不用像原始的形式再去算一遍,因此可以加快一些運(yùn)算速度,數(shù)據(jù)越多節(jié)省的計(jì)算次數(shù)就越多,因此比原始形式更加的優(yōu)化 zhihu.com blog.csdn.net blog.csdn.net。
11.k近鄰:適用條件,輸入輸出,模型,策略,算法
答:
適用條件是:數(shù)據(jù)量較小,數(shù)據(jù)維度較低,數(shù)據(jù)分布比較均勻,對(duì)分類結(jié)果的準(zhǔn)確性要求較高。
輸入是實(shí)例的特征向量,輸出是實(shí)例的類別。
一種基本分類和回歸方法。 zhuanlan.zhihu.com zhuanlan.zhihu.com k近鄰(K- Nearest Neighbor,KNN)模型是一個(gè)非常簡(jiǎn)單與直觀的模型,其基本思想可以用這樣一句俗語(yǔ)來解釋——“近朱者赤,近墨者黑”。 zhuanlan.zhihu.com
策略:給定一個(gè)訓(xùn)練數(shù)據(jù)集,對(duì)新的輸入實(shí)例,在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的k個(gè)實(shí)例,這k個(gè)實(shí)例的多數(shù)屬于某個(gè)類,就把該輸入實(shí)例分類到這個(gè)類中
實(shí)現(xiàn)步驟:
12.樸素貝葉斯法:適用條件,前驗(yàn)概率,后驗(yàn)概率,模型,策略,算法
答:適用條件:特征之間相互獨(dú)立,且每個(gè)特征同等重要 cloud.tencent.com
前驗(yàn)概率是指在沒有任何證據(jù)的情況下,某個(gè)事件發(fā)生的概率;
后驗(yàn)概率是指在已知某些條件下,某個(gè)事件發(fā)生的概率 。
模型是指樸素貝葉斯分類器,它是一個(gè)生成模型,可以通過訓(xùn)練數(shù)據(jù)集來估計(jì)先驗(yàn)概率和條件概率 cloud.tencent.com。
策略是選擇后驗(yàn)概率最大的類別作為預(yù)測(cè)結(jié)果 zhuanlan.zhihu.com。
算法是指樸素貝葉斯算法,它包括訓(xùn)練和預(yù)測(cè)兩個(gè)過程 cloud.tencent.com
13.決策樹:適用條件、模型、學(xué)習(xí)過程(特征項(xiàng)選擇、決策樹生成、決策樹修剪)、算法(ID3,C4.5,CART)
決策樹是一種基于樹結(jié)構(gòu)的分類模型,它的適用條件是:特征之間相互獨(dú)立,且每個(gè)特征同等重要 zhuanlan.zhihu.com。決策樹模型由特征項(xiàng)選擇、決策樹生成和決策樹修剪三個(gè)過程組成 zhuanlan.zhihu.com。特征項(xiàng)選擇是指從所有特征中選擇一個(gè)最優(yōu)的特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn);決策樹生成是指遞歸地構(gòu)建決策樹,直到所有數(shù)據(jù)都被正確分類或者沒有更多的特征可以用于分裂;決策樹修剪是指通過剪枝來避免過擬合 zhuanlan.zhihu.com。常見的決策樹算法有ID3、C4.5和CART zhuanlan.zhihu.com。
14.邏輯斯蒂回歸模型
答:邏輯斯蒂回歸模型是一種經(jīng)典的分類方法,它屬于對(duì)數(shù)線性模型,原理是根據(jù)現(xiàn)有的數(shù)據(jù)對(duì)分類邊界線建立回歸公式,以此進(jìn)行分類 blog.csdn.net。邏輯斯蒂回歸模型的參數(shù)估計(jì)可以采用極大似然估計(jì)法 blog.csdn.net。邏輯斯蒂回歸模型的優(yōu)點(diǎn)是:①模型形式簡(jiǎn)單,易于實(shí)現(xiàn);②分類時(shí)計(jì)算量小,速度快;③可并行處理 zhuanlan.zhihu.com。
15.最大熵模型
答:最大熵模型(Maximum Entropy Model)是一種概率模型學(xué)習(xí)中的準(zhǔn)則,其思想為:在學(xué)習(xí)概率模型時(shí),所有可能的模型中熵最大的模型是最好的模型;若概率模型需要滿足一些約束,則最大熵原理就是在滿足已知約束的條件集合中選擇熵最大模型 blog.csdn.net。最大熵模型是一種分類器,它可以用于分類、標(biāo)注、分詞等自然語(yǔ)言處理任務(wù) blog.csdn.net。
16.模型學(xué)習(xí)的最優(yōu)化算法
答:機(jī)器學(xué)習(xí)中常用的模型學(xué)習(xí)的最優(yōu)化算法有:梯度下降法、牛頓法、擬牛頓法、DFP算法、BFGS算法、改進(jìn)的迭代尺度法等 blog.csdn.net。這些算法都是用于訓(xùn)練模型參數(shù)的,即選取有效的特征函數(shù)權(quán)重 blog.csdn.net。
17.支持向量機(jī):線性可分支持向量機(jī)與硬間隔最大化、線性支持向量機(jī)與軟間隔最大化、非線性支持向量機(jī)與核函數(shù)、序列最小最優(yōu)化算法
答:支持向量機(jī)(SVM)是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使它有別于感知機(jī);SVM還包括核技巧,這使它成為實(shí)質(zhì)上的非線性分類器 zhuanlan.zhihu.com。SVM的學(xué)習(xí)策略就是間隔最大化,可形式化為一個(gè)求解凸二次規(guī)劃的問題,也等價(jià)于正則化的合頁(yè)損失函數(shù)的最小化問題 zhuanlan.zhihu.com。SVM的學(xué)習(xí)算法就是求解凸二次規(guī)劃的最優(yōu)化算法 zhuanlan.zhihu.com。
支持向量機(jī)有三種模型:線性可分支持向量機(jī)、線性支持向量機(jī)和非線性支持向量機(jī) zhuanlan.zhihu.com。其中,線性可分支持向量機(jī)要求訓(xùn)練集線性可分,通過硬間隔最大化得到超平面;線性支持向量機(jī)要求訓(xùn)練集近似線性可分,通過軟間隔最大化獲得超平面;非線性支持向量機(jī)則通過核函數(shù)將輸入空間映射到高維特征空間,使得在特征空間中線性可分 zhuanlan.zhihu.com。
序列最小最優(yōu)化算法(SMO)是一種快速高效地求解支持向量機(jī)(SVM)二次規(guī)劃問題的算法 zhuanlan.zhihu.com。
總結(jié)
- 上一篇: discriminative train
- 下一篇: def convert_dummy(df