當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习期末简答总结

發(fā)布時(shí)間：2023/12/8 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习期末简答总结小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文檔完整電子版

https://download.csdn.net/download/qq_42368540/68205608

1.什么是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)，它們之間的區(qū)別有哪些？

監(jiān)督學(xué)習(xí)，是指訓(xùn)練集的數(shù)據(jù)已經(jīng)分好類別，通過對帶有標(biāo)簽的數(shù)據(jù)進(jìn)行學(xué)習(xí)，來調(diào)整分類器的參數(shù)，使其達(dá)到所要求性能的過程。當(dāng)用測試集對模型進(jìn)行測試時(shí)，給出D測={xi }=>{yi}。

常見的監(jiān)督學(xué)習(xí)算法：邏輯回歸、K近鄰、樸素貝葉斯、支持向量機(jī)

非監(jiān)督學(xué)習(xí)，需要將一系列沒有標(biāo)簽和類別未知的數(shù)據(jù)，輸入到算法中，需要根據(jù)樣本之間的相似性對樣本集進(jìn)行分類(聚類)試圖使類內(nèi)差距最小化，類間差距最大化。

常見的非監(jiān)督學(xué)習(xí)算法：K-means、LDA

①監(jiān)督學(xué)習(xí)必須要有訓(xùn)練集和測試集，非監(jiān)督學(xué)習(xí)沒有訓(xùn)練集，只有一組數(shù)據(jù)，在該數(shù)據(jù)集內(nèi)尋找規(guī)律。

②監(jiān)督學(xué)習(xí)要求訓(xùn)練集必須由帶標(biāo)簽的樣本組成，非監(jiān)督學(xué)習(xí)不要求數(shù)據(jù)樣本帶有標(biāo)簽。

③非監(jiān)督學(xué)習(xí)是在尋找數(shù)據(jù)集中的規(guī)律性，但這種規(guī)律性并不一定要對數(shù)據(jù)進(jìn)行分類。

2.解釋分類、聚類、回歸、損失函數(shù)

分類：根據(jù)一些給定的已知類別標(biāo)號的樣本，通過訓(xùn)練得到某種目標(biāo)函數(shù)，使它能夠?qū)ξ粗悇e的樣本進(jìn)行分類。

聚類：指事先并不知道任何樣本的類別標(biāo)號，希望通過某種算法來把一組未知類別的樣本劃分成若干類別，這在機(jī)器學(xué)習(xí)中被稱作無監(jiān)督學(xué)習(xí)。

回歸：用于預(yù)測輸入變量和輸出變量之間的關(guān)系，特別是當(dāng)輸入變量的值發(fā)生變化時(shí)，輸出變量的值隨之發(fā)生的變化。

損失函數(shù)：用來估量模型的預(yù)測值f(x)與真實(shí)值Y的不一致程度，它是一個(gè)非負(fù)實(shí)值函數(shù),通常使用L(Y, f(x))來表示，損失函數(shù)越小，模型的魯棒性就越好。

3.什么是機(jī)器學(xué)習(xí)，機(jī)器學(xué)習(xí)的步驟是什么

機(jī)器學(xué)習(xí)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能，重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。

1 提出問題

2采集數(shù)據(jù)、導(dǎo)入數(shù)據(jù)、查看數(shù)據(jù)信息

3數(shù)據(jù)預(yù)處理、特征提取、特征選擇

4 模型構(gòu)建(建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集、選擇機(jī)器學(xué)習(xí)算法、創(chuàng)建模型、訓(xùn)練模型) 5 評估模型 6 方案實(shí)施 7 報(bào)告撰寫

4.什么是過擬合和欠擬合，產(chǎn)生的原因，以及解決辦法

過擬合：在訓(xùn)練集上使用了一個(gè)非常復(fù)雜的模型，以至于這個(gè)模型在擬合訓(xùn)練集時(shí)表現(xiàn)非常好，但是在測試集的表現(xiàn)非常差。

過擬合原因：訓(xùn)練數(shù)據(jù)集樣本單一、訓(xùn)練樣本噪音數(shù)據(jù)干擾過大、模型過于復(fù)雜。

過擬合解決辦法：

①在訓(xùn)練和建立模型的時(shí)候，一定要從相對簡單的模型開始，不要一上來就把模型調(diào)得非常復(fù)雜、特征非常多。

②數(shù)據(jù)采樣一定要盡可能地覆蓋全部數(shù)據(jù)種類。

③在模型的訓(xùn)練過程中，我們也可以利用數(shù)學(xué)手段預(yù)防過擬合現(xiàn)象的發(fā)生，例如：可以在算法中添加懲罰函數(shù)來預(yù)防過擬合。

欠擬合：如果模型過于簡單，對于訓(xùn)練集的特點(diǎn)都不能完全考慮到的話，那么這樣的模型在訓(xùn)練集和測試集的表現(xiàn)都會非常的差。

欠擬合原因：模型復(fù)雜度過低、特征量過少

欠擬合解決辦法：

①通過增加新特征來增大假設(shè)空間。

②添加多項(xiàng)式特征，例如將線性模型通過添加二次項(xiàng)或者三次項(xiàng)使模型泛化能力更強(qiáng)。

③減少正則化參數(shù)。

④使用非線性模型，比如決策樹、深度學(xué)習(xí)等模型。

⑤調(diào)整模型的容量，模型的容量是指其擬合各種函數(shù)的能力，容量低的模型可能很難擬合訓(xùn)練集。

5.如何劃分?jǐn)?shù)據(jù)集以及評估方法有哪幾種

評估方法就是進(jìn)行劃分?jǐn)?shù)據(jù)集的，應(yīng)該要求測試集與訓(xùn)練集之間互斥，用測試集來進(jìn)行模型預(yù)測，來評估模型的分類和性能能力。

留出法：就是將整個(gè)數(shù)據(jù)集按照某種比例進(jìn)行劃分成訓(xùn)練集和測試集，要注意分層對數(shù)據(jù)采樣，多次重復(fù)劃分，測試集最好保持在20-30%的數(shù)據(jù)量上

交叉驗(yàn)證法：將全部數(shù)據(jù)集D分成 k個(gè)不相交的子集，進(jìn)行k次訓(xùn)練和測試，每次從分好的子集中里面，拿出一個(gè)子集作為測試集，其它k-1個(gè)子集作為訓(xùn)練集，計(jì)算k次測試結(jié)果的平均值，作為該模型的真實(shí)結(jié)果。留一法：是交叉驗(yàn)證法的一種，例如D中有m個(gè)樣本，令k=m，則每個(gè)子集僅包含一個(gè)樣本。適合小樣本數(shù)據(jù)。

自助法：假定D中包含m個(gè)樣本，通過對它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D’，每次隨機(jī)從D中挑選一個(gè)樣本，將其拷貝放入D’中，然后再將該樣本放回D中，這個(gè)過程重復(fù)m次，則得到了包含m個(gè)樣本的數(shù)據(jù)集D’，可將D’用在訓(xùn)練集，D\D’用作測試集。

6.最大似然估計(jì)(MLE)

在已經(jīng)得到實(shí)驗(yàn)結(jié)果(樣本)的情況下，估計(jì)滿足這個(gè)樣本分布的參數(shù)θ，使這個(gè)樣本出現(xiàn)概率最大的參數(shù)θ，作為真參數(shù)θ估計(jì)。即：模型已定，參數(shù)未知。要求所有的采樣都是獨(dú)立同分布的。

假定X={x1,x2,…xn}，θ為模型參數(shù)，f為所使用的模型，則

L(θ|X)=f(X|θ)

求解過程：

1由總體分布推導(dǎo)出樣本的聯(lián)合概率密度函數(shù)（或聯(lián)合密度函數(shù)）；

2通過聯(lián)合概率密度函數(shù)（或聯(lián)合密度函數(shù)）得到似然函數(shù)L(θ)。

3對似然函數(shù)取對數(shù)，再求導(dǎo)，令導(dǎo)數(shù)為0，得到似然方程，再計(jì)算極大值點(diǎn)，若無法求導(dǎo)數(shù)時(shí)，要用極大似然原則來求解。

7.最大后驗(yàn)估計(jì)(MAP)

最大后驗(yàn)估計(jì)是根據(jù)經(jīng)驗(yàn)數(shù)據(jù)，獲得對難以觀察的量的點(diǎn)估計(jì)。與最大似然估計(jì)不同的是，最大后驗(yàn)估計(jì)融入了模型參數(shù)本身的先驗(yàn)概率分布。估計(jì)過程中，需利用先驗(yàn)概率和貝葉斯定理得到后驗(yàn)概率，目標(biāo)函數(shù)為后驗(yàn)概率的似然函數(shù)，求得該似然函數(shù)最大時(shí)的參數(shù)值，即MAP的目標(biāo)結(jié)果，求解過程可用梯度下降等方法進(jìn)行。

假定X={x1,x2,…xn}，θ為模型參數(shù)，f為所使用的模型，g為參數(shù)θ的先驗(yàn)分布則

L(θ|X)=f(X|θ)g(θ)?

1確定參數(shù)的先驗(yàn)分布以及似然函數(shù)

2確定參數(shù)的后驗(yàn)分布函數(shù)

3將后驗(yàn)分布函數(shù)轉(zhuǎn)換為對數(shù)函數(shù)，再求導(dǎo)，令導(dǎo)數(shù)為0，得到似然方程，再計(jì)算極大值點(diǎn)

8.MLE與MAP比較

最大后驗(yàn)估計(jì)是根據(jù)經(jīng)驗(yàn)數(shù)據(jù)獲得對難以觀察的量的點(diǎn)估計(jì)，融入了要估計(jì)量的先驗(yàn)分布在其中。

MLE：取似然函數(shù)最大時(shí)的參數(shù)值為該參數(shù)的估計(jì)值。MAP：取后驗(yàn)函數(shù)最大時(shí)的參數(shù)值為該參數(shù)的估計(jì)值。

MLE只考慮訓(xùn)練數(shù)據(jù)擬合程度沒有考慮先驗(yàn)知識，把錯(cuò)誤點(diǎn)也加入了模型中，會導(dǎo)致過擬合。

MAP考慮了模型的先驗(yàn)分布，而MLE假設(shè)模型是均勻分布。

兩者都是為了找到參數(shù)的某一個(gè)取值，這個(gè)取值使得得到目前觀察結(jié)果的概率最大。

9.貝葉斯分類器(樸素貝葉斯分類器)

其分類原理是通過某對象的先驗(yàn)概率，利用貝葉斯公式計(jì)算出其后驗(yàn)概率，即該對象屬于某一類的概率，選擇具有最大后驗(yàn)概率的類作為該對象所屬的類。

類結(jié)點(diǎn)C，其中C 的取值來自于分類集合( c1, c2, ... , cm)，分類特征集合X = (x1, x2, ... , xn)，則樣本D屬于類別ci的概率P(C = ci | X = x) = P(X = x | C = ci) * P(C = ci) /P(X = x)

貝葉斯最優(yōu)分類器：? 補(bǔ)：R(c|x)=1-P(c|x) 最小化分類錯(cuò)誤率

所有樸素貝葉斯分類器都假定樣本每個(gè)特征與其他特征都不相關(guān)，由指定的特征值xi，通過構(gòu)造分類器f，得到所屬分類yi, 分類特征集合X = (x1, x2, ... , xn)，類別集合c=(y1,y2,…,ym)。計(jì)算后驗(yàn)概率：P(yi|x)=P(yi)P(x|yi)/P(x)

樸素貝葉斯分類器：

樸素貝葉斯分類器的優(yōu)缺點(diǎn):

若條件獨(dú)立性假設(shè)成立，則樸素貝葉斯分類器是最佳分類器

樸素貝葉斯模型有穩(wěn)定的分類效率

對缺失數(shù)據(jù)不敏感，算法簡單，常用于文本分類，分類準(zhǔn)確度高，速度快

但需要先知道先驗(yàn)概率，因此在某些時(shí)候由于假設(shè)的先驗(yàn)?zāi)Ｐ偷脑驅(qū)е骂A(yù)測的效果不佳

10.分類器分為哪幾種模型

判別式模型：給定x，通過直接建模P(c|x)，來預(yù)測c。例如：邏輯回歸

生成式模型：先對聯(lián)合概率分布P(x|c)建模，然后由此獲得P(c|x)。例如：高斯、樸素貝葉斯

判別式模型較生成式模型方便很多，因?yàn)樯墒侥Ｐ托枰獙W(xué)習(xí)一個(gè)X和Y的聯(lián)合分布，往往需要很多數(shù)據(jù)，而判別式模型需要的數(shù)據(jù)相對較少，不過生成式模型能夠提供更多的信息。若給定無限數(shù)據(jù)，條件獨(dú)立性假設(shè)成立，判別式和生成式表現(xiàn)相似，若不成立，則判別式優(yōu)于生成式。

11.什么是線性回歸和邏輯回歸，并闡述兩者的聯(lián)系和區(qū)別，以及各自的優(yōu)缺點(diǎn)

線性回歸：用一條高維一次曲線或曲面，去擬合變量之間的關(guān)系。利用線性回歸方程的最小平方函數(shù)對一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。

線性回歸模型公式：h(x)=ω1x1+ω2x2+??+ωnxn+b

{x}是模型的特征空間，ω是特征向量的權(quán)值，b是常量。

邏輯回歸：一個(gè)應(yīng)用非常廣泛的機(jī)器學(xué)習(xí)分類算法，它將數(shù)據(jù)擬合到一個(gè)logit函數(shù)中，從而完成對事件發(fā)生概率的預(yù)測。

區(qū)別：

①線性回歸要求變量服從正態(tài)分布，邏輯回歸對變量分布沒有要求。

②線性回歸要求因變量是連續(xù)性數(shù)值變量，而邏輯回歸要求因變量是分類型變量。

③線性回歸要求自變量和因變量呈線性關(guān)系，而邏輯回歸不要求自變量和因變量呈線性關(guān)系

④邏輯回歸是分析因變量取某個(gè)值的概率與自變量的關(guān)系，而線性回歸是直接分析因變量與自變量的線性關(guān)系

⑤線性回歸優(yōu)化的目標(biāo)函數(shù)是均方誤差（最小二乘法)，而邏輯回歸優(yōu)化的是似然函數(shù)

⑥邏輯回歸處理的是分類問題，線性回歸處理的是回歸問題，這也導(dǎo)致了兩個(gè)模型的取值范圍不同：0-1和實(shí)數(shù)域

聯(lián)系：

①兩個(gè)都是線性模型，線性回歸是普通線性模型，邏輯回歸是廣義線性模型

②表達(dá)形式上，邏輯回歸是線性回歸套上了一個(gè)Sigmoid函數(shù)

線性回歸優(yōu)缺點(diǎn)：

優(yōu)點(diǎn)：

①思想簡單，實(shí)現(xiàn)容易，建模迅速，模型容易理解，對于小數(shù)據(jù)量、簡單的關(guān)系很有效。

②是許多強(qiáng)大的非線性模型的基礎(chǔ)。

③能解決回歸問題。

缺點(diǎn)：

①對于非線性數(shù)據(jù)或者數(shù)據(jù)特征間具有相關(guān)性多項(xiàng)式回歸難以建模.

②難以很好地表達(dá)高度復(fù)雜的數(shù)據(jù)，容易欠擬合。

邏輯回歸優(yōu)缺點(diǎn)：

優(yōu)點(diǎn)：

①訓(xùn)練速度快，分類的時(shí)候，計(jì)算量僅僅只和特征的數(shù)目相關(guān)

②簡單易理解，模型的可解釋性非常好

③適合二分類問題，不需要縮放輸入特征

缺點(diǎn)：

①不能用LR去解決非線性問題

②對多重共線性數(shù)據(jù)較為敏感

③很難處理數(shù)據(jù)不平衡問題

④準(zhǔn)確率并不是很高，因?yàn)樾问椒浅：唵?#xff0c;很難去擬合數(shù)據(jù)的真實(shí)分布

12.參數(shù)模型與非參數(shù)模型

參數(shù)模型：通常假設(shè)總體服從某個(gè)分布，這個(gè)分布可以由一些參數(shù)確定，如正態(tài)分布由均值和標(biāo)準(zhǔn)差確定，在此基礎(chǔ)上構(gòu)建的模型稱為參數(shù)模型。

常見的參數(shù)機(jī)器學(xué)習(xí)模型有：邏輯回歸、線性回歸、感知機(jī)

優(yōu)點(diǎn):

1、簡潔：理論容易理解和解釋結(jié)果。

2、快速：參數(shù)模型學(xué)習(xí)和訓(xùn)練的速度都很快。

3、數(shù)據(jù)更少：通常不需要大量的數(shù)據(jù)，在對數(shù)據(jù)的擬合不很好時(shí)表現(xiàn)也不錯(cuò)。

局限性：

1、拘束：以指定的函數(shù)形式來指定學(xué)習(xí)方式。

2、有限的復(fù)雜度：通常只能應(yīng)對簡單的問題。

3、擬合度小：實(shí)際中通常無法和潛在的目標(biāo)函數(shù)完全吻合，也就是容易出現(xiàn)欠擬合。

非參數(shù)模型：對目標(biāo)函數(shù)形式不做過多的假設(shè)，因此算法可以通過對訓(xùn)練數(shù)據(jù)進(jìn)行擬合而學(xué)習(xí)出某種形式的函數(shù)。

常見的非參數(shù)機(jī)器學(xué)習(xí)模型有：決策樹、素貝葉斯、持向量機(jī)、經(jīng)網(wǎng)絡(luò)

優(yōu)點(diǎn)：

1、可變性：可以擬合許多不同的函數(shù)形式。

2、模型強(qiáng)大：對于目標(biāo)函數(shù)不做假設(shè)或者作出很小的假設(shè)。

3、表現(xiàn)良好：對于訓(xùn)練樣本數(shù)據(jù)具有良好的擬合性。

局限性：

1、需要更多數(shù)據(jù)：對于擬合目標(biāo)函數(shù)需要更多的訓(xùn)練數(shù)據(jù)。

2、速度慢：因?yàn)樾枰?xùn)練跟多的參數(shù)，所以訓(xùn)練過程通常比較慢。

3、過擬合：有較高的風(fēng)險(xiǎn)發(fā)生過擬合，對于預(yù)測的效果解釋性不高。

11.極大似然估計(jì)

已知某個(gè)隨機(jī)樣本滿足某種概率分布，但是其中具體的參數(shù)不清楚，參數(shù)估計(jì)就是通過若干次試驗(yàn)，觀察其結(jié)果，利用結(jié)果推出參數(shù)的大概值。

令Dc表示訓(xùn)練集D中第c類樣本組成的集合，假設(shè)這些樣本是獨(dú)立同分布的，則參數(shù)θc對于數(shù)據(jù)集Dc似然是P(Dc|θc)=

對數(shù)似然LL(θc)=log P(Dc|θc)=

此時(shí)θc的極大似然估計(jì)=arg max LL(θc)

13.獨(dú)立同分布

隨機(jī)過程中，任何時(shí)刻的取值都為隨機(jī)變量，如果這些隨機(jī)變量服從同一分布，并且互相獨(dú)立，那么這些隨機(jī)變量是獨(dú)立同分布。如隨機(jī)變量X1和X2獨(dú)立，是指X1的取值不影響X2的取值，X2的取值也不影響X1的取值且隨機(jī)變量X1和X2服從同一分布，這意味著X1和X2具有相同的分布形狀和相同的分布參數(shù)。

14.BP算法

BP算法：由學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個(gè)過程組成。

BP算法的基本思想是：學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個(gè)過程組成。正向傳播時(shí)，輸入樣本從輸入層傳入，經(jīng)各隱層逐層處理后，傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出(教師信號)不符，則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳，并將誤差分?jǐn)偨o各層的所有單元，從而獲得各層單元的誤差信號，此誤差信號即作為修正各單元權(quán)值的依據(jù)。這種信號正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程，是周而復(fù)始地進(jìn)行的。權(quán)值不斷調(diào)整的過程，也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度，或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。

BP學(xué)習(xí)過程：

(1)組成輸入模式由輸入層經(jīng)過隱含層向輸出層的“模式順傳播”過程。

(2)網(wǎng)絡(luò)的期望輸出與實(shí)際輸出之差的誤差信號由輸出層經(jīng)過隱含層逐層休整連接權(quán)的“誤差逆?zhèn)鞑?/span>”過程。

(3)由“模式順傳播”與“誤差逆?zhèn)鞑?/span>”的反復(fù)進(jìn)行的網(wǎng)絡(luò)“記憶訓(xùn)練”過程。

(4)網(wǎng)絡(luò)的總體誤差趨向極小值的“學(xué)習(xí)收斂”過程。

BP算法不足：

(1)訓(xùn)練時(shí)間較長。對于某些特殊的問題，運(yùn)行時(shí)間可能需要幾個(gè)小時(shí)甚至更長，可以采用自適應(yīng)的學(xué)習(xí)率加以改進(jìn)。

(2)易陷入局部極小值。這主要是因?yàn)?/span>BP算法所采用的是梯度下降法，不同的起始點(diǎn)可能導(dǎo)致不同的極小值產(chǎn)生，即得到不同的最優(yōu)解。

(3)訓(xùn)練過程中，學(xué)習(xí)新樣本時(shí)有遺忘舊樣本的趨勢。

(4)梯度越來越稀疏，從頂層越往下，誤差校正信號越來越小，梯度擴(kuò)散

(5)通常，算法只能用于有標(biāo)簽的數(shù)據(jù)訓(xùn)練，但大部分?jǐn)?shù)據(jù)是沒有標(biāo)簽的

15.多層神經(jīng)網(wǎng)絡(luò)一般由哪些層組成，每層（節(jié)點(diǎn)）什么含義

在神經(jīng)網(wǎng)絡(luò)中，處理單元通常按層次分布于神經(jīng)網(wǎng)絡(luò)的輸入層、隱含層和輸出層

輸入層：接受與處理訓(xùn)練數(shù)據(jù)集中的各輸入變量值

隱含層：實(shí)現(xiàn)非線性數(shù)據(jù)的線性變換

輸出層：給出輸出變量的分類或預(yù)測結(jié)果

16.介紹L2正則化與L1正則化及區(qū)別

17.集成學(xué)習(xí)，Bagging與Boosting方法及兩者區(qū)別

集成學(xué)習(xí)：就是將多個(gè)個(gè)體學(xué)習(xí)器用某種策略組合起來成為強(qiáng)學(xué)習(xí)器，通常個(gè)體學(xué)習(xí)器是由已有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)產(chǎn)生的。有同質(zhì)集成和異質(zhì)集成。同質(zhì)集成，即集成中只包含同種類型的個(gè)體學(xué)習(xí)器，這些個(gè)體學(xué)習(xí)器亦被稱為基學(xué)習(xí)器，產(chǎn)生這些基學(xué)習(xí)器的學(xué)習(xí)算法叫作基學(xué)習(xí)算法。異質(zhì)集成，即集成中的個(gè)體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成。

Bagging：是一種并行集成算法。該算法的思想是分別構(gòu)造多個(gè)基學(xué)習(xí)器（弱學(xué)習(xí)器），多個(gè)基學(xué)習(xí)器相互之間是并行的關(guān)系，通過自助采樣法進(jìn)行訓(xùn)練，最終將多個(gè)基學(xué)習(xí)器結(jié)合。對分類問題采用投票方式，對回歸問題采用簡單平均方法對新示例進(jìn)行判別。

Baggingt特點(diǎn)：

①訓(xùn)練集是在原始集中有放回選取的，從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立的

②使用均勻取樣，每個(gè)樣例的權(quán)重相等

③所有預(yù)測函數(shù)的權(quán)重相等。

④各個(gè)預(yù)測函數(shù)可以并行生成

⑤趨于降低方差，使模型更穩(wěn)定

Boosting：是一種迭代算法。每輪迭代中會在訓(xùn)練集上產(chǎn)生一個(gè)新的分類器，然后使用該分類器對所有樣本進(jìn)行分類，以評估每個(gè)樣本的重要性。Boosting算法要涉及到兩個(gè)部分，加法模型和前向分步算法。加法模型就是說強(qiáng)分類器由一系列弱分類器線性相加而成。前向分步就是說在訓(xùn)練過程中，下一輪迭代產(chǎn)生的分類器是在上一輪的基礎(chǔ)上訓(xùn)練得來的。

Boosting特點(diǎn)：

①每一輪的訓(xùn)練集不變，只是訓(xùn)練集中每個(gè)樣例在分類器中的權(quán)重發(fā)生變化。而權(quán)值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整。

②根據(jù)錯(cuò)誤率不斷調(diào)整樣例的權(quán)值，錯(cuò)誤率越大則權(quán)重越大。

③每個(gè)弱分類器都有相應(yīng)的權(quán)重，對于分類誤差小的分類器會有更大的權(quán)重。

④各個(gè)預(yù)測函數(shù)只能順序生成，因?yàn)楹笠粋€(gè)模型參數(shù)需要前一輪模型的結(jié)果。

⑤趨于降低偏差，模型準(zhǔn)確率更高。

18.支持向量機(jī)與感知機(jī)，及兩者的區(qū)別與聯(lián)系

感知機(jī)：

二維空間中找到一條直線可以把所有二元類別分離開，三維或多維空間中，找到一個(gè)分離超平面把所有二元類別分離開。

f(x)=sign(wx+b) 將f(x)稱為感知機(jī)，w,b分別為該感知機(jī)的權(quán)值和偏置，sign是符號函數(shù)，有兩種輸出結(jié)果

定義損失函數(shù)：??（M為誤分類點(diǎn)集合）

補(bǔ)：多層感知機(jī)：除了輸入和輸出層之外，它中間可以有多個(gè)隱含層。

支持向量機(jī)：

是一種二分類監(jiān)督學(xué)習(xí)模型，定義在特征空間上間隔最大的線性模型。

分類決策函數(shù)：

區(qū)別：

感知機(jī)，只需要找到可以將數(shù)據(jù)正確劃分的超平面即可，而SVM需要找到間隔最大的超平面將數(shù)據(jù)劃分開，感知機(jī)超平面無數(shù)個(gè)，而SVM只有一個(gè)

19.偏差和方差

偏差：學(xué)習(xí)算法的期望預(yù)測與真實(shí)結(jié)果的偏離程度，刻畫了學(xué)習(xí)算法本身的擬合能力。，偏差越小，擬合越好，小到一定程度會發(fā)生過擬合。

方差：度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化，刻畫了數(shù)據(jù)擾動所造成的影響。

，方差越大，數(shù)據(jù)分布越分散。

20.交叉驗(yàn)證及存在的問題

將數(shù)據(jù)集隨機(jī)劃分成k類，每類作為一個(gè)測試集，剩余k-1個(gè)類作為訓(xùn)練集，交替作為測試集，計(jì)算k次，求每次的均方誤差。

留一法是一種特殊的交叉驗(yàn)證方式。如果樣本容量為n，則k=n，進(jìn)行n折交叉驗(yàn)證，每次留下一個(gè)樣本進(jìn)行驗(yàn)證。主要針對小樣本數(shù)據(jù)。

存在k值確定的問題：

選擇的k值大，誤差估計(jì)的偏差很小，但誤差估計(jì)的方差很大，計(jì)算時(shí)間非常大。

選擇的k值小，誤差估計(jì)的偏差很大，但計(jì)算量小，時(shí)間短，誤差估計(jì)的方差小。

21.決策樹

決策過程：

決策樹學(xué)習(xí)的算法通常是一個(gè)遞歸地選擇最優(yōu)特征，并根據(jù)該特征對訓(xùn)練數(shù)據(jù)進(jìn)行分割，使得各個(gè)子數(shù)據(jù)集有一個(gè)最好的分類的過程。每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測試，每個(gè)分支代表一個(gè)測試輸出，每個(gè)葉節(jié)點(diǎn)代表一種類別。

開始，構(gòu)建根節(jié)點(diǎn)，將所有訓(xùn)練數(shù)據(jù)都放在根節(jié)點(diǎn)，選擇一個(gè)最優(yōu)特征，按著這一特征將訓(xùn)練數(shù)據(jù)集分割成子集，使得各個(gè)子集有一個(gè)在當(dāng)前條件下最好的分類。

如果這些子集已經(jīng)能夠被基本正確分類，那么構(gòu)建葉節(jié)點(diǎn)，并將這些子集分到所對應(yīng)的葉節(jié)點(diǎn)去。

如果還有子集不能夠被正確的分類，那么就對這些子集選擇新的最優(yōu)特征，繼續(xù)對其進(jìn)行分割，構(gòu)建相應(yīng)的節(jié)點(diǎn)，如果遞歸進(jìn)行，直至所有訓(xùn)練數(shù)據(jù)子集被基本正確的分類，或者沒有合適的特征為止。

每個(gè)子集都被分到葉節(jié)點(diǎn)上，即都有了明確的類，這樣就生成了一顆決策樹。

優(yōu)點(diǎn)：

①決策樹可以完美的對訓(xùn)練集進(jìn)行分類，每個(gè)實(shí)例都有一個(gè)完美的葉節(jié)點(diǎn)

②能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性

③便于理解和解釋，能夠可視化

④對缺失值不敏感

缺點(diǎn)：

①泛化能力差，不能很好的推廣到新的例子

②對連續(xù)性字段比較難預(yù)測

③當(dāng)類別過多，錯(cuò)誤可能就會增加的比較快

簡單化決策樹：

預(yù)剪枝：在決策樹生成過程中，對每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行評估，若當(dāng)前結(jié)點(diǎn)的劃分不能帶來決策樹泛化性能提升，則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。

后剪枝：先從訓(xùn)練集生成一棵完整的決策樹，然后自底向上的對非葉結(jié)點(diǎn)進(jìn)行考察，若將該結(jié)點(diǎn)對應(yīng)的子樹替換為葉結(jié)點(diǎn)能帶來決策樹泛化性能提升，則將該子樹替換為葉結(jié)點(diǎn)。

22.損失函數(shù)有哪些，風(fēng)險(xiǎn)函數(shù)有哪些，哪些算法用這些函數(shù)

23. 怎樣去度量一個(gè)算法學(xué)習(xí)生成的模型是好是壞

采用性能度量來評判一個(gè)模型的泛化能力是好是壞。

TP：本來是正樣本，被模型預(yù)測為正樣本。

TN：本來是負(fù)樣本，被模型預(yù)測為負(fù)樣本。

FP：本來是負(fù)樣本，被模型預(yù)測為正樣本。

FN：本來是正樣本，被模型預(yù)測為負(fù)樣本。

正確率也即準(zhǔn)確率：識別對了的正例（TP）與負(fù)例（TN）占總識別樣本的比例。A=(TP+ TN)/S

錯(cuò)誤率：識別錯(cuò)了的正例（FP）與負(fù)例（FN）占總識別樣本的比例。E=( FP+FN)/S

精度：識別對了的正例（TP）占識別出的正例的比例。P=TP/(TP+ FP)

召回率：識別對了的正例（TP）占實(shí)際總正例的比例。R=TP/(TP+ FN)

24.線性回歸怎么去進(jìn)行求解，哪兩種辦法，分別簡述過程及原理，并給出兩種方法之間的聯(lián)系與區(qū)別

求解使用梯度下降和正規(guī)方程法

梯度下降：

梯度下降法是一種迭代算法。選取適當(dāng)?shù)某踔?/span>x(0)，不斷迭代，在迭代的每一步，以負(fù)梯度方向更新x的值，進(jìn)行目標(biāo)函數(shù)的極小化，直到收斂。

過程：當(dāng)變量的大小相差很大時(shí)，應(yīng)先預(yù)處理，對特征值進(jìn)行縮放，使得他們的值盡可能在同一范圍，這樣做能收斂的快些。①首先對θ隨機(jī)賦初值。②改變θ值，使得J(θ)按梯度下降方向減小。線性回歸的梯度下降僅有一個(gè)全局最優(yōu)，沒有其他局部最優(yōu)。因?yàn)閾p失函數(shù)J(θ)是凸二次函數(shù)，這里梯度下降一直收斂直到最小。

正規(guī)方程：

梯度下降算法需要經(jīng)過多次迭代，最后達(dá)到收斂。而正規(guī)方程法，提供了一種求解最優(yōu) θ的解析算法，不需要迭代，而直接一次性求出θ的最優(yōu)解。

過程：只需要對J(θ)函數(shù)對每個(gè)θ求偏導(dǎo)，求出每個(gè)θ j使得偏導(dǎo)等于0。這些解組合成對應(yīng)的向量θ就是最優(yōu)解。

在推導(dǎo)過程中推出一個(gè)結(jié)果公式：θ=

區(qū)別：

梯度下降算法有時(shí)需要我們對特征值進(jìn)行適當(dāng)?shù)目s放，正規(guī)方程不需要特征縮放。

梯度下降算法需要我們自己選擇適當(dāng)?shù)膶W(xué)習(xí)率α ，且需要多次的迭代運(yùn)算。而正規(guī)方程并不需要。

相比梯度下降，當(dāng)n不是很大時(shí)，正規(guī)方程得到結(jié)果更快一些，梯度下降更適合特征變量很多的情況.

25.KNN

KNN算法的核心思想是，如果一個(gè)樣本在特征空間中的K個(gè)最相鄰的樣本中，大多數(shù)都屬于某一個(gè)類別，則該樣本也屬于這個(gè)類別，并具有這個(gè)類別上樣本的特性。KNN方法在類別決策時(shí)，只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對于類域的交叉或重疊較多的待分類樣本集來說，KNN方法較其他方法更為適合。

①計(jì)算測試數(shù)據(jù)與各個(gè)訓(xùn)練數(shù)據(jù)之間的距離；

②按照距離的遞增關(guān)系進(jìn)行排序；

③選取距離最小的K個(gè)點(diǎn)；

④確定前K個(gè)點(diǎn)所在類別的出現(xiàn)頻率；

⑤返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類。

優(yōu)點(diǎn)：簡單有效、重新訓(xùn)練代價(jià)低、算法復(fù)雜度低、適合類域交叉樣本、適用大樣本自動分類

缺點(diǎn)：惰性學(xué)習(xí)、類別分類不標(biāo)準(zhǔn)化、輸出可解釋性不強(qiáng)、不均衡性、計(jì)算量較大

26.最小二乘法

是一種求解無約束最優(yōu)化問題的常用方法，并且也可以用于曲線擬合，來解決回歸問題。最小二乘法實(shí)質(zhì)就是最小化“均方誤差”。

f(xi)=wxi+b

(w*,b*)=arg min

27.密度估算有哪幾種，分別講述

在使用核密度估計(jì)時(shí)，如果帶寬設(shè)置過小，會出現(xiàn)過擬合的現(xiàn)象，如果帶寬設(shè)置過大，會出現(xiàn)欠擬合的現(xiàn)象，因此需要確定好最佳的帶寬。

補(bǔ)充：

1.超參數(shù)

是指模型在開始學(xué)習(xí)過程之前人為指定的參數(shù)，而不是通過訓(xùn)練得到的參數(shù)數(shù)據(jù)。例如：樹的深度、學(xué)習(xí)率、深層神經(jīng)網(wǎng)絡(luò)中隱藏層的數(shù)量等。

2.線性可分

給定一個(gè)數(shù)據(jù)集T={(xi,yi)}，其中，，i=1,2,……,N。如果存在一個(gè)超平面S，使得，能夠?qū)?shù)據(jù)集的正實(shí)例點(diǎn)和負(fù)實(shí)例點(diǎn)完全正確地劃分到超平面的兩側(cè)，即對所有的的實(shí)例i，有，對所有的的實(shí)例i，有，則稱數(shù)據(jù)集T為線性可分?jǐn)?shù)據(jù)集。

3.感知機(jī)（補(bǔ)充）

感知機(jī)是二分類的線性模型，其輸入是實(shí)例的特征向量，輸出的是事例的類別，分別是+1和-1，屬于判別模型，要求訓(xùn)練數(shù)據(jù)集是線性可分的。

4.支持向量機(jī)（補(bǔ)充）

線性可分支持向量機(jī)：當(dāng)訓(xùn)練樣本線性可分時(shí)，通過硬間隔最大化，學(xué)習(xí)一個(gè)線性分類器。

線性支持向量機(jī)：當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時(shí)，引入松弛變量，通過軟間隔最大化，學(xué)習(xí)一個(gè)線性分類器。

非線性支持向量機(jī)：當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí)，通過使用核技巧及軟間隔最大化。

5.梯度下降（補(bǔ)充）

目標(biāo)函數(shù)：

參數(shù)θ更新公式：

批量梯度下降法：是梯度下降法的基本類型，這種方法使用整個(gè)數(shù)據(jù)集去計(jì)算代價(jià)函數(shù)的梯度。該方法迭代慢，并且很難處理不能載入內(nèi)存的數(shù)據(jù)集，每次迭代都是朝梯度下降的方向。

隨機(jī)梯度下降法：在每次迭代僅選擇一個(gè)訓(xùn)練樣本去計(jì)算代價(jià)函數(shù)的梯度，然后更新參數(shù)。即使是大規(guī)模數(shù)據(jù)集，隨機(jī)梯度下降法也會很快收斂。但每次迭代不一定都是朝梯度下降的方向，所以準(zhǔn)確性可能不會是最好的，同時(shí)，迭代次數(shù)較多。

小批量梯度下降法：小批量梯度下降是首選方法，因?yàn)樗Y(jié)合了前兩種方法。它只是將訓(xùn)練數(shù)據(jù)集拆分成小批量（m個(gè)訓(xùn)練樣本），在每次迭代中僅使用m個(gè)訓(xùn)練樣本去計(jì)算代價(jià)函數(shù)的梯度，并為每個(gè)批量執(zhí)行更新。因此，它平衡了隨機(jī)梯度下降的穩(wěn)健性和批量梯度下降的效率。

6.方差、均方誤差、標(biāo)準(zhǔn)差

方差是各數(shù)據(jù)偏離平均值差值的平方和的平均數(shù)。

均方誤差是各數(shù)據(jù)偏離真實(shí)值差值的平方和的平均數(shù)。

標(biāo)準(zhǔn)差是方差的算術(shù)平方根，刻畫了數(shù)據(jù)的離散程度或波動幅度，標(biāo)準(zhǔn)差越大，數(shù)據(jù)的離散程度越大；標(biāo)準(zhǔn)差越小，數(shù)據(jù)的離散程度越小。

7.二元分類器

在一類分類任務(wù)中，輸出兩個(gè)互斥類別中的一個(gè)。例如，一個(gè)評估郵件信息，輸出垃圾郵件或非垃圾郵件的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類器。輸出結(jié)果是0或1。

8.激活函數(shù)

在多層神經(jīng)網(wǎng)絡(luò)中，上層節(jié)點(diǎn)的輸出和下層節(jié)點(diǎn)的輸入之間具有一個(gè)函數(shù)關(guān)系，這個(gè)函數(shù)稱為激活函數(shù)

使用激活函數(shù)的作用：

如果不用激活函數(shù)，每一層輸出都是上層輸入的線性函數(shù)，無論神經(jīng)網(wǎng)絡(luò)有多少層，輸出都是輸入的線性組合。

如果使用的話，激活函數(shù)給神經(jīng)元引入了非線性因素，使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)，這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型中。

激活函數(shù)需要具備以下幾點(diǎn)性質(zhì):

①連續(xù)并可導(dǎo)（允許少數(shù)點(diǎn)上不可導(dǎo)）的非線性函數(shù)。可導(dǎo)的激活函數(shù)可以直接利用數(shù)值優(yōu)化的方法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。

②激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡單，有利于提高網(wǎng)絡(luò)計(jì)算效率。

③激活函數(shù)的導(dǎo)函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi)，不能太大也不能太小，否則會影響訓(xùn)練的效率和穩(wěn)定性。

常用的激活函數(shù)：

Sigmoid:

是常用的非線性的激活函數(shù)，它的數(shù)學(xué)形式如下：

特點(diǎn)：

它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出，特別的，如果是非常大的負(fù)數(shù)，那么輸出就是0；如果是非常大的正數(shù)，輸出就是1.

缺點(diǎn)：

①在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失，其中梯度爆炸發(fā)生的概率非常小，而梯度消失發(fā)生的概率比較大。

②Sigmoid 的output 不是0均值。這是不可取的，因?yàn)檫@會導(dǎo)致后一層的神經(jīng)元將得到上一層輸出的非0均值的信號作為輸入。

③其解析式中含有冪運(yùn)算，計(jì)算機(jī)求解時(shí)相對來講比較耗時(shí)。對于規(guī)模比較大的深度網(wǎng)絡(luò)，這會較大地增加訓(xùn)練時(shí)間。

tanh函數(shù)：

函數(shù)解析式：

為雙曲正切曲線，過（0,0）點(diǎn)

優(yōu)點(diǎn)：

函數(shù)輸出以（0,0）為中心

收斂速度相對于Sigmoid更快

缺點(diǎn)：

tanh并沒有解決sigmoid梯度消失的問題

ReLU函數(shù)：

f(x)=max(0,x);

優(yōu)點(diǎn)：

①在輸入為正數(shù)的時(shí)候，不存在梯度飽和問題。

②計(jì)算速度要快很多。ReLU函數(shù)只有線性關(guān)系，不管是前向傳播還是反向傳播，都比sigmod和tanh要快很多。

缺點(diǎn)：

①當(dāng)輸入是負(fù)數(shù)的時(shí)候，ReLU是完全不被激活的。這樣在前向傳播過程中，有的區(qū)域是敏感的，有的是不敏感的。但是到了反向傳播過程中，輸入負(fù)數(shù)，梯度就會完全到0。

②我們發(fā)現(xiàn)ReLU函數(shù)的輸出要么是0，要么是正數(shù)，這也就是說，ReLU函數(shù)也不是以0為中心的函數(shù)。

9. K-means算法

K-means算法的思想：對于給定的樣本集，按照樣本之間的距離大小，將樣本集劃分為K個(gè)簇。讓簇內(nèi)的點(diǎn)盡量緊密的連在一起，而讓簇間的距離盡量的大。

算法執(zhí)行過程：

選擇常數(shù)K，隨機(jī)選擇K個(gè)樣本點(diǎn)，每個(gè)樣本點(diǎn)初始地代表一個(gè)類的平均值或簇中心；

對剩余每個(gè)數(shù)據(jù)樣本點(diǎn)，根據(jù)其到類中心的距離，被劃分到最近的類；

重新計(jì)算每個(gè)簇的平均值來更新每個(gè)簇中心；

重復(fù)這個(gè)過程，直到所有樣本都不能再分配為止；

返回K中心。

K-means優(yōu)點(diǎn)：

①原理簡單，模型的可解釋性較強(qiáng)，適用于常規(guī)不相交的簇。

②收斂相對較快。

③聚類效果較優(yōu)。

K-means缺點(diǎn)

①需要提前指定 K 的值。

②可能會收斂到局部最優(yōu)點(diǎn)。在實(shí)踐中，嘗試不同的初始中心點(diǎn), 從中挑選最好的結(jié)果。

③可能對噪聲數(shù)據(jù)和異常值敏感。

④對于不是凸的數(shù)據(jù)集比較難收斂。

⑤如果各隱含類別的數(shù)據(jù)不平衡，例如：各隱含類別的方差不同，則聚類效果不佳。

K-means和KNN比較

K-means是無監(jiān)督學(xué)習(xí)的聚類算法，沒有樣本輸出；而KNN是監(jiān)督學(xué)習(xí)的分類算法，有對應(yīng)的類別輸出。KNN基本不需要訓(xùn)練，對測試集里面的點(diǎn)，只需要找到在訓(xùn)練集中最近的k個(gè)點(diǎn)，用這最近的k個(gè)點(diǎn)的類別來決定測試點(diǎn)的類別。而K-means則有明顯的訓(xùn)練過程，找到k個(gè)類別的最佳質(zhì)心，從而決定樣本的簇類別。

當(dāng)然，兩者也有一些相似點(diǎn)，兩個(gè)算法都包含一個(gè)過程，即找出和某一個(gè)點(diǎn)最近的點(diǎn)。兩者都利用了最近鄰的思想。

10.誤差反向傳播算法

11.泛化錯(cuò)誤、訓(xùn)練錯(cuò)誤、性能度量

泛化誤差：在新樣本或測試集中產(chǎn)生的誤差

訓(xùn)練誤差：學(xué)習(xí)器在訓(xùn)練集中產(chǎn)生的誤差

性能度量：是衡量模型泛化能力的評價(jià)標(biāo)準(zhǔn)，反映了任務(wù)需求。

12.貝葉斯文本分類

文本都是由多個(gè)詞語所構(gòu)成的，將文本進(jìn)行分詞得到多個(gè)文本的特征項(xiàng)(詞語)。

設(shè)X={a1,a2,……,am}為一個(gè)待分類項(xiàng)，X為將文本進(jìn)行分詞得到的多個(gè)文本的特征項(xiàng)集合，每個(gè)ai為X的一個(gè)特征屬性(詞語)。

設(shè)類別集合C={y1,y2,……,yn}

計(jì)算P(y1|X),P(y2|X),……,P(yn|X)

根據(jù)貝葉斯公式

取max{P(y1|X),P(y2|X),……,P(yn|X)}，作為X所屬的類別。

例題：

13.樸素貝葉斯與邏輯回歸的區(qū)別

①樸素貝葉斯是一個(gè)生成模型，邏輯回歸是一個(gè)判別模型（可以再解釋下生成式模型與判別式模型）

②樸素貝葉斯是建立在條件獨(dú)立性假設(shè)的基礎(chǔ)之上的。因此，樸素貝葉斯可以不使用梯度下降，而直接通過統(tǒng)計(jì)每個(gè)特征的邏輯發(fā)生比來當(dāng)做權(quán)重。邏輯回歸的條件獨(dú)立假設(shè)并不成立，所以，需要通過梯度下降法，來得到特征之間的耦合信息，從而得到相應(yīng)的權(quán)重。邏輯回歸實(shí)際上是用線性回歸模型的預(yù)測結(jié)果去逼近后驗(yàn)概率的邏輯發(fā)生比。

③樸素貝葉斯：不需要優(yōu)化參數(shù)，先用極大似然估計(jì)法估計(jì)出先驗(yàn)概率P(y)和條件概率P(x|y)，然后計(jì)算出極大后驗(yàn)概率P(y|x)。邏輯回歸：需要優(yōu)化參數(shù)，先用極大似然估計(jì)法得出損失函數(shù)，再用梯度下降法等優(yōu)化參數(shù)。

以下為對序號②的解釋：

14.多項(xiàng)式回歸

研究一個(gè)因變量與一個(gè)或多個(gè)自變量間多項(xiàng)式的回歸分析方法，稱為多項(xiàng)式回歸。

如果自變量只有一個(gè)時(shí)，稱為一元多項(xiàng)式回歸。f(x)=w0+w1x+w2x2+…+wmxm

如果自變量有多個(gè)時(shí)，稱為多元多項(xiàng)式回歸。f(x)=w0+w1x1+ w2x2+w3x12+ w4x22…

15.高斯分布學(xué)習(xí)

高斯分布公式：

在后驗(yàn)估計(jì)下高斯分布的均值與方差

16.非線性回歸

非線性回歸算法屬于有監(jiān)督的回歸學(xué)習(xí)算法。非線性回歸算法就是將非線性回歸轉(zhuǎn)化為線性回歸，再按照線性回歸求解。例如：y-a+b*lnx，令v=lnx，u=y，則u=a+b*v。線性回歸通常采用給定的函數(shù)值與模型預(yù)測值之差的平方和最小為損失函數(shù), 并使用最小二乘法和梯度下降法來計(jì)算最終的擬合參數(shù)。自變量與因變量之間的函數(shù)表達(dá)式的非線性體現(xiàn)在至少有一個(gè)變量的指數(shù)不是1。

邏輯回歸分類算法的核心步驟如下:

①確定變換函數(shù)，將非線性回歸轉(zhuǎn)化為線性回歸;

②構(gòu)造 predict 函數(shù)，采用n維線性函數(shù);

③構(gòu)造 loss 函數(shù), 給定的函數(shù)值與模型預(yù)測值之差的平方和最小;

④使用最小二乘法和梯度下降法計(jì)算最終的擬合參數(shù);

⑤反復(fù)迭代優(yōu)化最終的擬合參數(shù);

⑥輸出最終的擬合參數(shù)

17.模型選擇

在實(shí)際機(jī)器學(xué)習(xí)的應(yīng)用中，我們常常需要反復(fù)調(diào)試和比較不同的參數(shù)設(shè)置以提高模型在新數(shù)據(jù)集上的預(yù)測性能，這一調(diào)參優(yōu)化的過程就被稱為模型的選擇。

holdout 方法進(jìn)行模型選擇：

將數(shù)據(jù)集劃分為：訓(xùn)練集、驗(yàn)證集、測試集

重復(fù)地使用驗(yàn)證集來評估模型的參數(shù)，對其性能做出評價(jià)。一旦我們對參數(shù)值滿意，我們就將使用測試集來評估模型的泛化誤差。holdout 方法的弊端在于性能的評估對訓(xùn)練集和測試集的分割比例較為敏感。

K交叉驗(yàn)證（參考前面）

結(jié)構(gòu)風(fēng)險(xiǎn)最小化：

復(fù)雜性正則化：

信息標(biāo)準(zhǔn)：AIC：C(f)=#parameters? ? BIC：C(f)=#parameters*logn

最小描述長度：MDL

18.最小二乘法和最大似然估計(jì)以及正則化最小二乘法和最大后驗(yàn)估計(jì)

19.ROC曲線

TPR（真正例率）：真實(shí)值是正例，且預(yù)測為正例的比例

FPR（假正例率）：真實(shí)值為負(fù)例，而預(yù)測為正例的比例

ROC曲線就是以TPR為Y軸，以FPR為X軸，然后以一個(gè)對不同的預(yù)測值進(jìn)行分類.

當(dāng)取不同閾值時(shí)會得到不同的TPR和FPR，對應(yīng)于ROC曲線上的一個(gè)點(diǎn)。

那么ROC曲線就反映了FPR與TPR之間動態(tài)關(guān)系的情況。

通俗地來說，即在TPR隨著FPR遞增的情況下，誰增長得更快，快多少的問題。

TPR增長得越快，曲線越往上曲，反映了模型的分類性能就越好。

當(dāng)正負(fù)樣本不平衡時(shí)，這種模型評價(jià)方式比起一般的精確度評價(jià)方式的好處尤其顯著。

文檔完整電子版

https://download.csdn.net/download/qq_42368540/68205608

總結(jié)

以上是生活随笔為你收集整理的机器学习期末简答总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：比特率 Kbps kbit/s 1K
下一篇：学海无涯之程序员