机器学习期末简答总结
文檔完整電子版
https://download.csdn.net/download/qq_42368540/68205608
1.什么是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),它們之間的區(qū)別有哪些?
監(jiān)督學(xué)習(xí),是指訓(xùn)練集的數(shù)據(jù)已經(jīng)分好類別,通過對帶有標(biāo)簽的數(shù)據(jù)進(jìn)行學(xué)習(xí),來調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程。當(dāng)用測試集對模型進(jìn)行測試時(shí),給出D測={xi }=>{yi}。
常見的監(jiān)督學(xué)習(xí)算法:邏輯回歸、K近鄰、樸素貝葉斯、支持向量機(jī)
非監(jiān)督學(xué)習(xí),需要將一系列沒有標(biāo)簽和類別未知的數(shù)據(jù),輸入到算法中,需要根據(jù)樣本之間的相似性對樣本集進(jìn)行分類(聚類)試圖使類內(nèi)差距最小化,類間差距最大化。
常見的非監(jiān)督學(xué)習(xí)算法:K-means、LDA
①監(jiān)督學(xué)習(xí)必須要有訓(xùn)練集和測試集,非監(jiān)督學(xué)習(xí)沒有訓(xùn)練集,只有一組數(shù)據(jù),在該數(shù)據(jù)集內(nèi)尋找規(guī)律。
②監(jiān)督學(xué)習(xí)要求訓(xùn)練集必須由帶標(biāo)簽的樣本組成,非監(jiān)督學(xué)習(xí)不要求數(shù)據(jù)樣本帶有標(biāo)簽。
③非監(jiān)督學(xué)習(xí)是在尋找數(shù)據(jù)集中的規(guī)律性,但這種規(guī)律性并不一定要對數(shù)據(jù)進(jìn)行分類。
2.解釋分類、聚類、回歸、損失函數(shù)
分類:根據(jù)一些給定的已知類別標(biāo)號的樣本,通過訓(xùn)練得到某種目標(biāo)函數(shù),使它能夠?qū)ξ粗悇e的樣本進(jìn)行分類。
聚類:指事先并不知道任何樣本的類別標(biāo)號,希望通過某種算法來把一組未知類別的樣本劃分成若干類別,這在機(jī)器學(xué)習(xí)中被稱作無監(jiān)督學(xué)習(xí)。
回歸:用于預(yù)測輸入變量和輸出變量之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時(shí),輸出變量的值隨之發(fā)生的變化。
損失函數(shù):用來估量模型的預(yù)測值f(x)與真實(shí)值Y的不一致程度,它是一個(gè)非負(fù)實(shí)值函數(shù),通常使用L(Y, f(x))來表示,損失函數(shù)越小,模型的魯棒性就越好。
3.什么是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)的步驟是什么
機(jī)器學(xué)習(xí)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。
1 提出問題
2采集數(shù)據(jù)、導(dǎo)入數(shù)據(jù)、查看數(shù)據(jù)信息
3數(shù)據(jù)預(yù)處理、特征提取、特征選擇
4 模型構(gòu)建(建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集、選擇機(jī)器學(xué)習(xí)算法、創(chuàng)建模型、訓(xùn)練模型) 5 評估模型 6 方案實(shí)施 7 報(bào)告撰寫
4.什么是過擬合和欠擬合,產(chǎn)生的原因,以及解決辦法
過擬合:在訓(xùn)練集上使用了一個(gè)非常復(fù)雜的模型,以至于這個(gè)模型在擬合訓(xùn)練集時(shí)表現(xiàn)非常好,但是在測試集的表現(xiàn)非常差。
過擬合原因:訓(xùn)練數(shù)據(jù)集樣本單一、訓(xùn)練樣本噪音數(shù)據(jù)干擾過大、模型過于復(fù)雜。
過擬合解決辦法:
①在訓(xùn)練和建立模型的時(shí)候,一定要從相對簡單的模型開始,不要一上來就把模型調(diào)得非常復(fù)雜、特征非常多。
②數(shù)據(jù)采樣一定要盡可能地覆蓋全部數(shù)據(jù)種類。
③在模型的訓(xùn)練過程中,我們也可以利用數(shù)學(xué)手段預(yù)防過擬合現(xiàn)象的發(fā)生,例如:可以在算法中添加懲罰函數(shù)來預(yù)防過擬合。
欠擬合:如果模型過于簡單,對于訓(xùn)練集的特點(diǎn)都不能完全考慮到的話,那么這樣的模型在訓(xùn)練集和測試集的表現(xiàn)都會非常的差。
欠擬合原因:模型復(fù)雜度過低、特征量過少
欠擬合解決辦法:
①通過增加新特征來增大假設(shè)空間。
②添加多項(xiàng)式特征,例如將線性模型通過添加二次項(xiàng)或者三次項(xiàng)使模型泛化能力更強(qiáng)。
③減少正則化參數(shù)。
④使用非線性模型,比如決策樹、深度學(xué)習(xí)等模型。
⑤調(diào)整模型的容量,模型的容量是指其擬合各種函數(shù)的能力,容量低的模型可能很難擬合訓(xùn)練集。
5.如何劃分?jǐn)?shù)據(jù)集以及評估方法有哪幾種
評估方法就是進(jìn)行劃分?jǐn)?shù)據(jù)集的,應(yīng)該要求測試集與訓(xùn)練集之間互斥,用測試集來進(jìn)行模型預(yù)測,來評估模型的分類和性能能力。
留出法:就是將整個(gè)數(shù)據(jù)集 按照某種比例進(jìn)行劃分成訓(xùn)練集和測試集,要注意分層對數(shù)據(jù)采樣,多次重復(fù)劃分,測試集最好保持在20-30%的數(shù)據(jù)量上
交叉驗(yàn)證法:將全部數(shù)據(jù)集D分成 k個(gè)不相交的子集,進(jìn)行k次訓(xùn)練和測試,每次從分好的子集中里面,拿出一個(gè)子集作為測試集,其它k-1個(gè)子集作為訓(xùn)練集,計(jì)算k次測試結(jié)果的平均值,作為該模型的真實(shí)結(jié)果。留一法:是交叉驗(yàn)證法的一種,例如D中有m個(gè)樣本,令k=m,則每個(gè)子集僅包含一個(gè)樣本。適合小樣本數(shù)據(jù)。
自助法:假定D中包含m個(gè)樣本,通過對它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D’,每次隨機(jī)從D中挑選一個(gè)樣本,將其拷貝放入D’中,然后再將該樣本放回D中,這個(gè)過程重復(fù)m次,則得到了包含m個(gè)樣本的數(shù)據(jù)集D’,可將D’用在訓(xùn)練集,D\D’用作測試集。
6.最大似然估計(jì)(MLE)
在已經(jīng)得到實(shí)驗(yàn)結(jié)果(樣本)的情況下,估計(jì)滿足這個(gè)樣本分布的參數(shù)θ,使這個(gè)樣本出現(xiàn)概率最大的參數(shù)θ,作為真參數(shù)θ估計(jì)。即:模型已定,參數(shù)未知。要求所有的采樣都是獨(dú)立同分布的。
假定X={x1,x2,…xn},θ為模型參數(shù),f為所使用的模型,則
L(θ|X)=f(X|θ)
求解過程:
1由總體分布推導(dǎo)出樣本的聯(lián)合概率密度函數(shù)(或聯(lián)合密度函數(shù));
2通過聯(lián)合概率密度函數(shù)(或聯(lián)合密度函數(shù))得到似然函數(shù)L(θ)。
3對似然函數(shù)取對數(shù),再求導(dǎo),令導(dǎo)數(shù)為0,得到似然方程,再計(jì)算極大值點(diǎn),若無法求導(dǎo)數(shù)時(shí),要用極大似然原則來求解。
7.最大后驗(yàn)估計(jì)(MAP)
最大后驗(yàn)估計(jì)是根據(jù)經(jīng)驗(yàn)數(shù)據(jù),獲得對難以觀察的量的點(diǎn)估計(jì)。與最大似然估計(jì)不同的是,最大后驗(yàn)估計(jì)融入了模型參數(shù)本身的先驗(yàn)概率分布。估計(jì)過程中,需利用先驗(yàn)概率和貝葉斯定理得到后驗(yàn)概率,目標(biāo)函數(shù)為后驗(yàn)概率的似然函數(shù),求得該似然函數(shù)最大時(shí)的參數(shù)值,即MAP的目標(biāo)結(jié)果,求解過程可用梯度下降等方法進(jìn)行。
假定X={x1,x2,…xn},θ為模型參數(shù),f為所使用的模型,g為參數(shù)θ的先驗(yàn)分布則
L(θ|X)=f(X|θ)g(θ)?
1確定參數(shù)的先驗(yàn)分布以及似然函數(shù)
2確定參數(shù)的后驗(yàn)分布函數(shù)
3將后驗(yàn)分布函數(shù)轉(zhuǎn)換為對數(shù)函數(shù),再求導(dǎo),令導(dǎo)數(shù)為0,得到似然方程,再計(jì)算極大值點(diǎn)
8.MLE與MAP比較
最大后驗(yàn)估計(jì)是根據(jù)經(jīng)驗(yàn)數(shù)據(jù)獲得對難以觀察的量的點(diǎn)估計(jì),融入了要估計(jì)量的先驗(yàn)分布在其中。
MLE:取似然函數(shù)最大時(shí)的參數(shù)值為該參數(shù)的估計(jì)值。MAP:取后驗(yàn)函數(shù)最大時(shí)的參數(shù)值為該參數(shù)的估計(jì)值。
MLE只考慮訓(xùn)練數(shù)據(jù)擬合程度沒有考慮先驗(yàn)知識,把錯(cuò)誤點(diǎn)也加入了模型中,會導(dǎo)致過擬合。
MAP考慮了模型的先驗(yàn)分布,而MLE假設(shè)模型是均勻分布。
兩者都是為了找到參數(shù)的某一個(gè)取值,這個(gè)取值使得得到目前觀察結(jié)果的概率最大。
9.貝葉斯分類器(樸素貝葉斯分類器)
其分類原理是通過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類。
類結(jié)點(diǎn)C,其中C 的取值來自于分類集合( c1, c2, ... , cm),分類特征集合X = (x1, x2, ... , xn),則樣本D屬于類別ci的概率P(C = ci | X = x) = P(X = x | C = ci) * P(C = ci) /P(X = x)
貝葉斯最優(yōu)分類器:? 補(bǔ):R(c|x)=1-P(c|x) 最小化分類錯(cuò)誤率
所有樸素貝葉斯分類器都假定樣本每個(gè)特征與其他特征都不相關(guān),由指定的特征值xi,通過構(gòu)造分類器f,得到所屬分類yi, 分類特征集合X = (x1, x2, ... , xn),類別集合c=(y1,y2,…,ym)。計(jì)算后驗(yàn)概率:P(yi|x)=P(yi)P(x|yi)/P(x)
樸素貝葉斯分類器:
樸素貝葉斯分類器的優(yōu)缺點(diǎn):
若條件獨(dú)立性假設(shè)成立,則樸素貝葉斯分類器是最佳分類器
樸素貝葉斯模型有穩(wěn)定的分類效率
對缺失數(shù)據(jù)不敏感,算法簡單,常用于文本分類,分類準(zhǔn)確度高,速度快
但需要先知道先驗(yàn)概率,因此在某些時(shí)候由于假設(shè)的先驗(yàn)?zāi)P偷脑驅(qū)е骂A(yù)測的效果不佳
10.分類器分為哪幾種模型
判別式模型:給定x,通過直接建模P(c|x),來預(yù)測c。例如:邏輯回歸
生成式模型:先對聯(lián)合概率分布P(x|c)建模,然后由此獲得P(c|x)。例如:高斯、樸素貝葉斯
判別式模型較生成式模型方便很多,因?yàn)樯墒侥P托枰獙W(xué)習(xí)一個(gè)X和Y的聯(lián)合分布,往往需要很多數(shù)據(jù),而判別式模型需要的數(shù)據(jù)相對較少,不過生成式模型能夠提供更多的信息。若給定無限數(shù)據(jù),條件獨(dú)立性假設(shè)成立,判別式和生成式表現(xiàn)相似,若不成立,則判別式優(yōu)于生成式。
11.什么是線性回歸和邏輯回歸,并闡述兩者的聯(lián)系和區(qū)別,以及各自的優(yōu)缺點(diǎn)
線性回歸:用一條高維一次曲線或曲面,去擬合變量之間的關(guān)系。利用線性回歸方程的最小平方函數(shù)對一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。
線性回歸模型公式:h(x)=ω1x1+ω2x2+??+ωnxn+b
{x}是模型的特征空間,ω是特征向量的權(quán)值,b是常量。
邏輯回歸:一個(gè)應(yīng)用非常廣泛的機(jī)器學(xué)習(xí)分類算法,它將數(shù)據(jù)擬合到一個(gè)logit函數(shù)中,從而完成對事件發(fā)生概率的預(yù)測。
區(qū)別:
①線性回歸要求變量服從正態(tài)分布,邏輯回歸對變量分布沒有要求。
②線性回歸要求因變量是連續(xù)性數(shù)值變量,而邏輯回歸要求因變量是分類型變量。
③線性回歸要求自變量和因變量呈線性關(guān)系,而邏輯回歸不要求自變量和因變量呈線性關(guān)系
④邏輯回歸是分析因變量取某個(gè)值的概率與自變量的關(guān)系,而線性回歸是直接分析因變量與自變量的線性關(guān)系
⑤線性回歸優(yōu)化的目標(biāo)函數(shù)是均方誤差(最小二乘法),而邏輯回歸優(yōu)化的是似然函數(shù)
⑥邏輯回歸處理的是分類問題,線性回歸處理的是回歸問題,這也導(dǎo)致了兩個(gè)模型的取值范圍不同:0-1和實(shí)數(shù)域
聯(lián)系:
①兩個(gè)都是線性模型,線性回歸是普通線性模型,邏輯回歸是廣義線性模型
②表達(dá)形式上,邏輯回歸是線性回歸套上了一個(gè)Sigmoid函數(shù)
線性回歸優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
①思想簡單,實(shí)現(xiàn)容易,建模迅速,模型容易理解,對于小數(shù)據(jù)量、簡單的關(guān)系很有效。
②是許多強(qiáng)大的非線性模型的基礎(chǔ)。
③能解決回歸問題。
缺點(diǎn):
①對于非線性數(shù)據(jù)或者數(shù)據(jù)特征間具有相關(guān)性多項(xiàng)式回歸難以建模.
②難以很好地表達(dá)高度復(fù)雜的數(shù)據(jù),容易欠擬合。
邏輯回歸優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
①訓(xùn)練速度快,分類的時(shí)候,計(jì)算量僅僅只和特征的數(shù)目相關(guān)
②簡單易理解,模型的可解釋性非常好
③適合二分類問題,不需要縮放輸入特征
缺點(diǎn):
①不能用LR去解決非線性問題
②對多重共線性數(shù)據(jù)較為敏感
③很難處理數(shù)據(jù)不平衡問題
④準(zhǔn)確率并不是很高,因?yàn)樾问椒浅:唵?#xff0c;很難去擬合數(shù)據(jù)的真實(shí)分布
12.參數(shù)模型與非參數(shù)模型
參數(shù)模型:通常假設(shè)總體服從某個(gè)分布,這個(gè)分布可以由一些參數(shù)確定,如正態(tài)分布由均值和標(biāo)準(zhǔn)差確定,在此基礎(chǔ)上構(gòu)建的模型稱為參數(shù)模型。
常見的參數(shù)機(jī)器學(xué)習(xí)模型有:邏輯回歸、線性回歸、感知機(jī)
優(yōu)點(diǎn):
1、簡潔:理論容易理解和解釋結(jié)果。
2、快速:參數(shù)模型學(xué)習(xí)和訓(xùn)練的速度都很快。
3、數(shù)據(jù)更少:通常不需要大量的數(shù)據(jù),在對數(shù)據(jù)的擬合不很好時(shí)表現(xiàn)也不錯(cuò)。
局限性:
1、拘束:以指定的函數(shù)形式來指定學(xué)習(xí)方式。
2、有限的復(fù)雜度:通常只能應(yīng)對簡單的問題。
3、擬合度小:實(shí)際中通常無法和潛在的目標(biāo)函數(shù)完全吻合,也就是容易出現(xiàn)欠擬合。
非參數(shù)模型:對目標(biāo)函數(shù)形式不做過多的假設(shè),因此算法可以通過對訓(xùn)練數(shù)據(jù)進(jìn)行擬合而學(xué)習(xí)出某種形式的函數(shù)。
常見的非參數(shù)機(jī)器學(xué)習(xí)模型有:決策樹、素貝葉斯、持向量機(jī)、經(jīng)網(wǎng)絡(luò)
優(yōu)點(diǎn):
1、可變性:可以擬合許多不同的函數(shù)形式。
2、模型強(qiáng)大:對于目標(biāo)函數(shù)不做假設(shè)或者作出很小的假設(shè)。
3、表現(xiàn)良好:對于訓(xùn)練樣本數(shù)據(jù)具有良好的擬合性。
局限性:
1、需要更多數(shù)據(jù):對于擬合目標(biāo)函數(shù)需要更多的訓(xùn)練數(shù)據(jù)。
2、速度慢:因?yàn)樾枰?xùn)練跟多的參數(shù),所以訓(xùn)練過程通常比較慢。
3、過擬合:有較高的風(fēng)險(xiǎn)發(fā)生過擬合,對于預(yù)測的效果解釋性不高。
11.極大似然估計(jì)
已知某個(gè)隨機(jī)樣本滿足某種概率分布,但是其中具體的參數(shù)不清楚,參數(shù)估計(jì)就是通過若干次試驗(yàn),觀察其結(jié)果,利用結(jié)果推出參數(shù)的大概值。
令Dc表示訓(xùn)練集D中第c類樣本組成的集合,假設(shè)這些樣本是獨(dú)立同分布的,則參數(shù)θc對于數(shù)據(jù)集Dc似然是P(Dc|θc)=
對數(shù)似然LL(θc)=log P(Dc|θc)=
此時(shí)θc的極大似然估計(jì)=arg max LL(θc)
13.獨(dú)立同分布
隨機(jī)過程中,任何時(shí)刻的取值都為隨機(jī)變量,如果這些隨機(jī)變量服從同一分布,并且互相獨(dú)立,那么這些隨機(jī)變量是獨(dú)立同分布。如隨機(jī)變量X1和X2獨(dú)立,是指X1的取值不影響X2的取值,X2的取值也不影響X1的取值且隨機(jī)變量X1和X2服從同一分布,這意味著X1和X2具有相同的分布形狀和相同的分布參數(shù)。
14.BP算法
BP算法:由學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個(gè)過程組成。
BP算法的基本思想是:學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個(gè)過程組成。正向傳播時(shí),輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出(教師信號)不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權(quán)值的依據(jù)。這種信號正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程,是周而復(fù)始地進(jìn)行的。權(quán)值不斷調(diào)整的過程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。
BP學(xué)習(xí)過程:
(1)組成輸入模式由輸入層經(jīng)過隱含層向輸出層的“模式順傳播”過程。
(2)網(wǎng)絡(luò)的期望輸出與實(shí)際輸出之差的誤差信號由輸出層經(jīng)過隱含層逐層休整連接權(quán)的“誤差逆?zhèn)鞑?/span>”過程。
(3)由“模式順傳播”與“誤差逆?zhèn)鞑?/span>”的反復(fù)進(jìn)行的網(wǎng)絡(luò)“記憶訓(xùn)練”過程。
(4)網(wǎng)絡(luò)的總體誤差趨向極小值的“學(xué)習(xí)收斂”過程。
BP算法不足:
(1)訓(xùn)練時(shí)間較長。對于某些特殊的問題,運(yùn)行時(shí)間可能需要幾個(gè)小時(shí)甚至更長,可以采用自適應(yīng)的學(xué)習(xí)率加以改進(jìn)。
(2)易陷入局部極小值。這主要是因?yàn)?/span>BP算法所采用的是梯度下降法,不同的起始點(diǎn)可能導(dǎo)致不同的極小值產(chǎn)生,即得到不同的最優(yōu)解。
(3)訓(xùn)練過程中,學(xué)習(xí)新樣本時(shí)有遺忘舊樣本的趨勢。
(4)梯度越來越稀疏,從頂層越往下,誤差校正信號越來越小,梯度擴(kuò)散
(5)通常,算法只能用于有標(biāo)簽的數(shù)據(jù)訓(xùn)練,但大部分?jǐn)?shù)據(jù)是沒有標(biāo)簽的
15.多層神經(jīng)網(wǎng)絡(luò)一般由哪些層組成,每層(節(jié)點(diǎn))什么含義
在神經(jīng)網(wǎng)絡(luò)中,處理單元通常按層次分布于神經(jīng)網(wǎng)絡(luò)的輸入層、隱含層和輸出層
輸入層:接受與處理訓(xùn)練數(shù)據(jù)集中的各輸入變量值
隱含層:實(shí)現(xiàn)非線性數(shù)據(jù)的線性變換
輸出層:給出輸出變量的分類或預(yù)測結(jié)果
16.介紹L2正則化與L1正則化及區(qū)別
17.集成學(xué)習(xí),Bagging與Boosting方法及兩者區(qū)別
集成學(xué)習(xí):就是將多個(gè)個(gè)體學(xué)習(xí)器用某種策略組合起來成為強(qiáng)學(xué)習(xí)器,通常個(gè)體學(xué)習(xí)器是由已有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)產(chǎn)生的。有同質(zhì)集成和異質(zhì)集成。同質(zhì)集成,即集成中只包含同種類型的個(gè)體學(xué)習(xí)器,這些個(gè)體學(xué)習(xí)器亦被稱為基學(xué)習(xí)器,產(chǎn)生這些基學(xué)習(xí)器的學(xué)習(xí)算法叫作基學(xué)習(xí)算法。異質(zhì)集成,即集成中的個(gè)體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成。
Bagging:是一種并行集成算法。該算法的思想是分別構(gòu)造多個(gè)基學(xué)習(xí)器(弱學(xué)習(xí)器),多個(gè)基學(xué)習(xí)器相互之間是并行的關(guān)系,通過自助采樣法進(jìn)行訓(xùn)練,最終將多個(gè)基學(xué)習(xí)器結(jié)合。對分類問題采用投票方式,對回歸問題采用簡單平均方法對新示例進(jìn)行判別。
Baggingt特點(diǎn):
①訓(xùn)練集是在原始集中有放回選取的,從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立的
②使用均勻取樣,每個(gè)樣例的權(quán)重相等
③所有預(yù)測函數(shù)的權(quán)重相等。
④各個(gè)預(yù)測函數(shù)可以并行生成
⑤趨于降低方差,使模型更穩(wěn)定
Boosting:是一種迭代算法。每輪迭代中會在訓(xùn)練集上產(chǎn)生一個(gè)新的分類器,然后使用該分類器對所有樣本進(jìn)行分類,以評估每個(gè)樣本的重要性。Boosting算法要涉及到兩個(gè)部分,加法模型和前向分步算法。加法模型就是說強(qiáng)分類器由一系列弱分類器線性相加而成。前向分步就是說在訓(xùn)練過程中,下一輪迭代產(chǎn)生的分類器是在上一輪的基礎(chǔ)上訓(xùn)練得來的。
Boosting特點(diǎn):
①每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣例在分類器中的權(quán)重發(fā)生變化。而權(quán)值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整。
②根據(jù)錯(cuò)誤率不斷調(diào)整樣例的權(quán)值,錯(cuò)誤率越大則權(quán)重越大。
③每個(gè)弱分類器都有相應(yīng)的權(quán)重,對于分類誤差小的分類器會有更大的權(quán)重。
④各個(gè)預(yù)測函數(shù)只能順序生成,因?yàn)楹笠粋€(gè)模型參數(shù)需要前一輪模型的結(jié)果。
⑤趨于降低偏差,模型準(zhǔn)確率更高。
18.支持向量機(jī)與感知機(jī),及兩者的區(qū)別與聯(lián)系
感知機(jī):
二維空間中找到一條直線可以把所有二元類別分離開,三維或多維空間中,找到一個(gè)分離超平面把所有二元類別分離開。
f(x)=sign(wx+b) 將f(x)稱為感知機(jī),w,b分別為該感知機(jī)的權(quán)值和偏置,sign是符號函數(shù),有兩種輸出結(jié)果
定義損失函數(shù):??(M為誤分類點(diǎn)集合)
補(bǔ):多層感知機(jī):除了輸入和輸出層之外,它中間可以有多個(gè)隱含層。
支持向量機(jī):
是一種二分類監(jiān)督學(xué)習(xí)模型,定義在特征空間上間隔最大的線性模型。
分類決策函數(shù):
區(qū)別:
感知機(jī),只需要找到可以將數(shù)據(jù)正確劃分的超平面即可,而SVM需要找到間隔最大的超平面將數(shù)據(jù)劃分開,感知機(jī)超平面無數(shù)個(gè),而SVM只有一個(gè)
19.偏差和方差
偏差:學(xué)習(xí)算法的期望預(yù)測與真實(shí)結(jié)果的偏離程度,刻畫了學(xué)習(xí)算法本身的擬合能力。,偏差越小,擬合越好,小到一定程度會發(fā)生過擬合。
方差:度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,刻畫了數(shù)據(jù)擾動所造成的影響。
,方差越大,數(shù)據(jù)分布越分散。
20.交叉驗(yàn)證及存在的問題
將數(shù)據(jù)集隨機(jī)劃分成k類,每類作為一個(gè)測試集,剩余k-1個(gè)類作為訓(xùn)練集,交替作為測試集,計(jì)算k次,求每次的均方誤差。
留一法是一種特殊的交叉驗(yàn)證方式。如果樣本容量為n,則k=n,進(jìn)行n折交叉驗(yàn)證,每次留下一個(gè)樣本進(jìn)行驗(yàn)證。主要針對小樣本數(shù)據(jù)。
存在k值確定的問題:
選擇的k值大,誤差估計(jì)的偏差很小,但誤差估計(jì)的方差很大,計(jì)算時(shí)間非常大。
選擇的k值小,誤差估計(jì)的偏差很大,但計(jì)算量小,時(shí)間短,誤差估計(jì)的方差小。
21.決策樹
決策過程:
決策樹學(xué)習(xí)的算法通常是一個(gè)遞歸地選擇最優(yōu)特征,并根據(jù)該特征對訓(xùn)練數(shù)據(jù)進(jìn)行分割,使得各個(gè)子數(shù)據(jù)集有一個(gè)最好的分類的過程。每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測試,每個(gè)分支代表一個(gè)測試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別。
開始,構(gòu)建根節(jié)點(diǎn),將所有訓(xùn)練數(shù)據(jù)都放在根節(jié)點(diǎn),選擇一個(gè)最優(yōu)特征,按著這一特征將訓(xùn)練數(shù)據(jù)集分割成子集,使得各個(gè)子集有一個(gè)在當(dāng)前條件下最好的分類。
如果這些子集已經(jīng)能夠被基本正確分類,那么構(gòu)建葉節(jié)點(diǎn),并將這些子集分到所對應(yīng)的葉節(jié)點(diǎn)去。
如果還有子集不能夠被正確的分類,那么就對這些子集選擇新的最優(yōu)特征,繼續(xù)對其進(jìn)行分割,構(gòu)建相應(yīng)的節(jié)點(diǎn),如果遞歸進(jìn)行,直至所有訓(xùn)練數(shù)據(jù)子集被基本正確的分類,或者沒有合適的特征為止。
每個(gè)子集都被分到葉節(jié)點(diǎn)上,即都有了明確的類,這樣就生成了一顆決策樹。
優(yōu)點(diǎn):
①決策樹可以完美的對訓(xùn)練集進(jìn)行分類,每個(gè)實(shí)例都有一個(gè)完美的葉節(jié)點(diǎn)
②能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性
③便于理解和解釋,能夠可視化
④對缺失值不敏感
缺點(diǎn):
①泛化能力差,不能很好的推廣到新的例子
②對連續(xù)性字段比較難預(yù)測
③當(dāng)類別過多,錯(cuò)誤可能就會增加的比較快
簡單化決策樹:
預(yù)剪枝:在決策樹生成過程中,對每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行評估,若當(dāng)前結(jié)點(diǎn)的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。
后剪枝:先從訓(xùn)練集生成一棵完整的決策樹,然后自底向上的對非葉結(jié)點(diǎn)進(jìn)行考察,若將該結(jié)點(diǎn)對應(yīng)的子樹替換為葉結(jié)點(diǎn)能帶來決策樹泛化性能提升,則將該子樹替換為葉結(jié)點(diǎn)。
22.損失函數(shù)有哪些,風(fēng)險(xiǎn)函數(shù)有哪些,哪些算法用這些函數(shù)
23. 怎樣去度量一個(gè)算法學(xué)習(xí)生成的模型是好是壞
采用性能度量來評判一個(gè)模型的泛化能力是好是壞。
TP:本來是正樣本,被模型預(yù)測為正樣本。
TN:本來是負(fù)樣本,被模型預(yù)測為負(fù)樣本。
FP:本來是負(fù)樣本,被模型預(yù)測為正樣本。
FN:本來是正樣本,被模型預(yù)測為負(fù)樣本。
正確率也即準(zhǔn)確率:識別對了的正例(TP)與負(fù)例(TN)占總識別樣本的比例。A=(TP+ TN)/S
錯(cuò)誤率:識別錯(cuò)了的正例(FP)與負(fù)例(FN)占總識別樣本的比例。E=( FP+FN)/S
精度:識別對了的正例(TP)占識別出的正例的比例。P=TP/(TP+ FP)
召回率:識別對了的正例(TP)占實(shí)際總正例的比例。R=TP/(TP+ FN)
24.線性回歸怎么去進(jìn)行求解,哪兩種辦法,分別簡述過程及原理,并給出兩種方法之間的聯(lián)系與區(qū)別
求解使用梯度下降和正規(guī)方程法
梯度下降:
梯度下降法是一種迭代算法。選取適當(dāng)?shù)某踔?/span>x(0),不斷迭代,在迭代的每一步,以負(fù)梯度方向更新x的值,進(jìn)行目標(biāo)函數(shù)的極小化,直到收斂。
過程:當(dāng)變量的大小相差很大時(shí),應(yīng)先預(yù)處理,對特征值進(jìn)行縮放,使得他們的值盡可能在同一范圍,這樣做能收斂的快些。①首先對θ隨機(jī)賦初值。②改變θ值,使得J(θ)按梯度下降方向減小。線性回歸的梯度下降僅有一個(gè)全局最優(yōu),沒有其他局部最優(yōu)。因?yàn)閾p失函數(shù)J(θ)是凸二次函數(shù),這里梯度下降一直收斂直到最小。
正規(guī)方程:
梯度下降算法需要經(jīng)過多次迭代,最后達(dá)到收斂。而正規(guī)方程法,提供了一種求解最優(yōu) θ的解析算法,不需要迭代,而直接一次性求出θ的最優(yōu)解。
過程:只需要對J(θ)函數(shù)對每個(gè)θ求偏導(dǎo),求出每個(gè)θ j使得偏導(dǎo)等于0。這些解組合成對應(yīng)的向量θ就是最優(yōu)解。
在推導(dǎo)過程中推出一個(gè)結(jié)果公式:θ=
區(qū)別:
梯度下降算法有時(shí)需要我們對特征值進(jìn)行適當(dāng)?shù)目s放,正規(guī)方程不需要特征縮放。
梯度下降算法需要我們自己選擇適當(dāng)?shù)膶W(xué)習(xí)率α ,且需要多次的迭代運(yùn)算。而正規(guī)方程并不需要。
相比梯度下降,當(dāng)n不是很大時(shí),正規(guī)方程得到結(jié)果更快一些,梯度下降更適合特征變量很多的情況.
25.KNN
KNN算法的核心思想是,如果一個(gè)樣本在特征空間中的K個(gè)最相鄰的樣本中,大多數(shù)都屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。KNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分類樣本集來說,KNN方法較其他方法更為適合。
①計(jì)算測試數(shù)據(jù)與各個(gè)訓(xùn)練數(shù)據(jù)之間的距離;
②按照距離的遞增關(guān)系進(jìn)行排序;
③選取距離最小的K個(gè)點(diǎn);
④確定前K個(gè)點(diǎn)所在類別的出現(xiàn)頻率;
⑤返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類。
優(yōu)點(diǎn):簡單有效、重新訓(xùn)練代價(jià)低、算法復(fù)雜度低、適合類域交叉樣本、適用大樣本自動分類
缺點(diǎn):惰性學(xué)習(xí)、類別分類不標(biāo)準(zhǔn)化、輸出可解釋性不強(qiáng)、不均衡性、計(jì)算量較大
26.最小二乘法
是一種求解無約束最優(yōu)化問題的常用方法,并且也可以用于曲線擬合,來解決回歸問題。最小二乘法實(shí)質(zhì)就是最小化“均方誤差”。
f(xi)=wxi+b
(w*,b*)=arg min
27.密度估算有哪幾種,分別講述
在使用核密度估計(jì)時(shí),如果帶寬設(shè)置過小,會出現(xiàn)過擬合的現(xiàn)象,如果帶寬設(shè)置過大,會出現(xiàn)欠擬合的現(xiàn)象,因此需要確定好最佳的帶寬。
補(bǔ)充:
1.超參數(shù)
是指模型在開始學(xué)習(xí)過程之前人為指定的參數(shù),而不是通過訓(xùn)練得到的參數(shù)數(shù)據(jù)。例如:樹的深度、學(xué)習(xí)率、深層神經(jīng)網(wǎng)絡(luò)中隱藏層的數(shù)量等。
2.線性可分
給定一個(gè)數(shù)據(jù)集T={(xi,yi)},其中,,i=1,2,……,N。如果存在一個(gè)超平面S,使得,能夠?qū)?shù)據(jù)集的正實(shí)例點(diǎn)和負(fù)實(shí)例點(diǎn)完全正確地劃分到超平面的兩側(cè),即對所有的的實(shí)例i,有,對所有的的實(shí)例i,有,則稱數(shù)據(jù)集T為線性可分?jǐn)?shù)據(jù)集。
3.感知機(jī)(補(bǔ)充)
感知機(jī)是二分類的線性模型,其輸入是實(shí)例的特征向量,輸出的是事例的類別,分別是+1和-1,屬于判別模型,要求訓(xùn)練數(shù)據(jù)集是線性可分的。
4.支持向量機(jī)(補(bǔ)充)
線性可分支持向量機(jī):當(dāng)訓(xùn)練樣本線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)一個(gè)線性分類器。
線性支持向量機(jī):當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時(shí),引入松弛變量,通過軟間隔最大化,學(xué)習(xí)一個(gè)線性分類器。
非線性支持向量機(jī):當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),通過使用核技巧及軟間隔最大化。
5.梯度下降(補(bǔ)充)
目標(biāo)函數(shù):
參數(shù)θ更新公式:
批量梯度下降法:是梯度下降法的基本類型,這種方法使用整個(gè)數(shù)據(jù)集去計(jì)算代價(jià)函數(shù)的梯度。該方法迭代慢,并且很難處理不能載入內(nèi)存的數(shù)據(jù)集,每次迭代都是朝梯度下降的方向。
隨機(jī)梯度下降法:在每次迭代僅選擇一個(gè)訓(xùn)練樣本去計(jì)算代價(jià)函數(shù)的梯度,然后更新參數(shù)。即使是大規(guī)模數(shù)據(jù)集,隨機(jī)梯度下降法也會很快收斂。但每次迭代不一定都是朝梯度下降的方向,所以準(zhǔn)確性可能不會是最好的,同時(shí),迭代次數(shù)較多。
小批量梯度下降法:小批量梯度下降是首選方法,因?yàn)樗Y(jié)合了前兩種方法。它只是將訓(xùn)練數(shù)據(jù)集拆分成小批量(m個(gè)訓(xùn)練樣本),在每次迭代中僅使用m個(gè)訓(xùn)練樣本去計(jì)算代價(jià)函數(shù)的梯度,并為每個(gè)批量執(zhí)行更新。因此,它平衡了隨機(jī)梯度下降的穩(wěn)健性和批量梯度下降的效率。
6.方差、均方誤差、標(biāo)準(zhǔn)差
方差是各數(shù)據(jù)偏離平均值差值的平方和的平均數(shù)。
均方誤差是各數(shù)據(jù)偏離真實(shí)值差值的平方和的平均數(shù)。
標(biāo)準(zhǔn)差是方差的算術(shù)平方根,刻畫了數(shù)據(jù)的離散程度或波動幅度,標(biāo)準(zhǔn)差越大,數(shù)據(jù)的離散程度越大;標(biāo)準(zhǔn)差越小,數(shù)據(jù)的離散程度越小。
7.二元分類器
在一類分類任務(wù)中,輸出兩個(gè)互斥類別中的一個(gè)。例如,一個(gè)評估郵件信息,輸出垃圾郵件或非垃圾郵件的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類器。輸出結(jié)果是0或1。
8.激活函數(shù)
在多層神經(jīng)網(wǎng)絡(luò)中,上層節(jié)點(diǎn)的輸出和下層節(jié)點(diǎn)的輸入之間具有一個(gè)函數(shù)關(guān)系,這個(gè)函數(shù)稱為激活函數(shù)
使用激活函數(shù)的作用:
如果不用激活函數(shù),每一層輸出都是上層輸入的線性函數(shù),無論神經(jīng)網(wǎng)絡(luò)有多少層,輸出都是輸入的線性組合。
如果使用的話,激活函數(shù)給神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù),這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型中。
激活函數(shù)需要具備以下幾點(diǎn)性質(zhì):
①連續(xù)并可導(dǎo)(允許少數(shù)點(diǎn)上不可導(dǎo))的非線性函數(shù)。可導(dǎo)的激活函數(shù)可以直接利用數(shù)值優(yōu)化的方法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。
②激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡單,有利于提高網(wǎng)絡(luò)計(jì)算效率。
③激活函數(shù)的導(dǎo)函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi),不能太大也不能太小,否則會影響訓(xùn)練的效率和穩(wěn)定性。
常用的激活函數(shù):
Sigmoid:
是常用的非線性的激活函數(shù),它的數(shù)學(xué)形式如下:
特點(diǎn):
它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出,特別的,如果是非常大的負(fù)數(shù),那么輸出就是0;如果是非常大的正數(shù),輸出就是1.
缺點(diǎn):
①在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消失,其中梯度爆炸發(fā)生的概率非常小,而梯度消失發(fā)生的概率比較大。
②Sigmoid 的output 不是0均值。這是不可取的,因?yàn)檫@會導(dǎo)致后一層的神經(jīng)元將得到上一層輸出的非0均值的信號作為輸入。
③其解析式中含有冪運(yùn)算,計(jì)算機(jī)求解時(shí)相對來講比較耗時(shí)。對于規(guī)模比較大的深度網(wǎng)絡(luò),這會較大地增加訓(xùn)練時(shí)間。
tanh函數(shù):
函數(shù)解析式:
為雙曲正切曲線,過(0,0)點(diǎn)
優(yōu)點(diǎn):
函數(shù)輸出以(0,0)為中心
收斂速度相對于Sigmoid更快
缺點(diǎn):
tanh并沒有解決sigmoid梯度消失的問題
ReLU函數(shù):
f(x)=max(0,x);
優(yōu)點(diǎn):
①在輸入為正數(shù)的時(shí)候,不存在梯度飽和問題。
②計(jì)算速度要快很多。ReLU函數(shù)只有線性關(guān)系,不管是前向傳播還是反向傳播,都比sigmod和tanh要快很多。
缺點(diǎn):
①當(dāng)輸入是負(fù)數(shù)的時(shí)候,ReLU是完全不被激活的。這樣在前向傳播過程中,有的區(qū)域是敏感的,有的是不敏感的。但是到了反向傳播過程中,輸入負(fù)數(shù),梯度就會完全到0。
②我們發(fā)現(xiàn)ReLU函數(shù)的輸出要么是0,要么是正數(shù),這也就是說,ReLU函數(shù)也不是以0為中心的函數(shù)。
9. K-means算法
K-means算法的思想:對于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K個(gè)簇。讓簇內(nèi)的點(diǎn)盡量緊密的連在一起,而讓簇間的距離盡量的大。
算法執(zhí)行過程:
選擇常數(shù)K,隨機(jī)選擇K個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)初始地代表一個(gè)類的平均值或簇中心;
對剩余每個(gè)數(shù)據(jù)樣本點(diǎn),根據(jù)其到類中心的距離,被劃分到最近的類;
重新計(jì)算每個(gè)簇的平均值來更新每個(gè)簇中心;
重復(fù)這個(gè)過程,直到所有樣本都不能再分配為止;
返回K中心。
K-means優(yōu)點(diǎn):
①原理簡單,模型的可解釋性較強(qiáng),適用于常規(guī)不相交的簇。
②收斂相對較快。
③聚類效果較優(yōu)。
K-means缺點(diǎn)
①需要提前指定 K 的值。
②可能會收斂到局部最優(yōu)點(diǎn)。在實(shí)踐中,嘗試不同的初始中心點(diǎn), 從中挑選最好的結(jié)果。
③可能對噪聲數(shù)據(jù)和異常值敏感。
④對于不是凸的數(shù)據(jù)集比較難收斂。
⑤如果各隱含類別的數(shù)據(jù)不平衡,例如:各隱含類別的方差不同,則聚類效果不佳。
K-means和KNN比較
K-means是無監(jiān)督學(xué)習(xí)的聚類算法,沒有樣本輸出;而KNN是監(jiān)督學(xué)習(xí)的分類算法,有對應(yīng)的類別輸出。KNN基本不需要訓(xùn)練,對測試集里面的點(diǎn),只需要找到在訓(xùn)練集中最近的k個(gè)點(diǎn),用這最近的k個(gè)點(diǎn)的類別來決定測試點(diǎn)的類別。而K-means則有明顯的訓(xùn)練過程,找到k個(gè)類別的最佳質(zhì)心,從而決定樣本的簇類別。
當(dāng)然,兩者也有一些相似點(diǎn),兩個(gè)算法都包含一個(gè)過程,即找出和某一個(gè)點(diǎn)最近的點(diǎn)。兩者都利用了最近鄰的思想。
10.誤差反向傳播算法
?
11.泛化錯(cuò)誤、訓(xùn)練錯(cuò)誤、性能度量
泛化誤差:在新樣本或測試集中產(chǎn)生的誤差
訓(xùn)練誤差:學(xué)習(xí)器在訓(xùn)練集中產(chǎn)生的誤差
性能度量:是衡量模型泛化能力的評價(jià)標(biāo)準(zhǔn),反映了任務(wù)需求。
12.貝葉斯文本分類
文本都是由多個(gè)詞語所構(gòu)成的,將文本進(jìn)行分詞得到多個(gè)文本的特征項(xiàng)(詞語)。
設(shè)X={a1,a2,……,am}為一個(gè)待分類項(xiàng),X為將文本進(jìn)行分詞得到的多個(gè)文本的特征項(xiàng)集合,每個(gè)ai為X的一個(gè)特征屬性(詞語)。
設(shè)類別集合C={y1,y2,……,yn}
計(jì)算P(y1|X),P(y2|X),……,P(yn|X)
根據(jù)貝葉斯公式
取max{P(y1|X),P(y2|X),……,P(yn|X)},作為X所屬的類別。
例題:
13.樸素貝葉斯與邏輯回歸的區(qū)別
①樸素貝葉斯是一個(gè)生成模型,邏輯回歸是一個(gè)判別模型(可以再解釋下生成式模型與判別式模型)
②樸素貝葉斯是建立在條件獨(dú)立性假設(shè)的基礎(chǔ)之上的。因此,樸素貝葉斯可以不使用梯度下降,而直接通過統(tǒng)計(jì)每個(gè)特征的邏輯發(fā)生比來當(dāng)做權(quán)重。邏輯回歸的條件獨(dú)立假設(shè)并不成立,所以,需要通過梯度下降法,來得到特征之間的耦合信息,從而得到相應(yīng)的權(quán)重。邏輯回歸實(shí)際上是用線性回歸模型的預(yù)測結(jié)果去逼近后驗(yàn)概率的邏輯發(fā)生比。
③樸素貝葉斯:不需要優(yōu)化參數(shù),先用極大似然估計(jì)法估計(jì)出先驗(yàn)概率P(y)和條件概率P(x|y),然后計(jì)算出極大后驗(yàn)概率P(y|x)。邏輯回歸:需要優(yōu)化參數(shù),先用極大似然估計(jì)法得出損失函數(shù),再用梯度下降法等優(yōu)化參數(shù)。
以下為對序號②的解釋:
14.多項(xiàng)式回歸
研究一個(gè)因變量與一個(gè)或多個(gè)自變量間多項(xiàng)式的回歸分析方法,稱為多項(xiàng)式回歸。
如果自變量只有一個(gè)時(shí),稱為一元多項(xiàng)式回歸。f(x)=w0+w1x+w2x2+…+wmxm
如果自變量有多個(gè)時(shí),稱為多元多項(xiàng)式回歸。f(x)=w0+w1x1+ w2x2+w3x12+ w4x22…
15.高斯分布學(xué)習(xí)
高斯分布公式:
在后驗(yàn)估計(jì)下高斯分布的均值與方差
16.非線性回歸
非線性回歸算法屬于有監(jiān)督的回歸學(xué)習(xí)算法。非線性回歸算法就是將非線性回歸轉(zhuǎn)化為線性回歸,再按照線性回歸求解。例如:y-a+b*lnx,令v=lnx,u=y,則u=a+b*v。線性回歸通常采用給定的函數(shù)值與模型預(yù)測值之差的平方和最小為損失函數(shù), 并使用最小二乘法和梯度下降法來計(jì)算最終的擬合參數(shù)。自變量與因變量之間的函數(shù)表達(dá)式的非線性體現(xiàn)在至少有一個(gè)變量的指數(shù)不是1。
邏輯回歸分類算法的核心步驟如下:
①確定變換函數(shù),將非線性回歸轉(zhuǎn)化為線性回歸;
②構(gòu)造 predict 函數(shù),采用n維線性函數(shù);
③構(gòu)造 loss 函數(shù), 給定的函數(shù)值與模型預(yù)測值之差的平方和最小;
④使用最小二乘法和梯度下降法計(jì)算最終的擬合參數(shù);
⑤反復(fù)迭代優(yōu)化最終的擬合參數(shù);
⑥輸出最終的擬合參數(shù)
17.模型選擇
在實(shí)際機(jī)器學(xué)習(xí)的應(yīng)用中,我們常常需要反復(fù)調(diào)試和比較不同的參數(shù)設(shè)置以提高模型在新數(shù)據(jù)集上的預(yù)測性能,這一調(diào)參優(yōu)化的過程就被稱為模型的選擇。
holdout 方法進(jìn)行模型選擇:
將數(shù)據(jù)集劃分為:訓(xùn)練集、驗(yàn)證集、測試集
重復(fù)地使用驗(yàn)證集來評估模型的參數(shù),對其性能做出評價(jià)。一旦我們對參數(shù)值滿意,我們就將使用測試集來評估模型的泛化誤差。holdout 方法的弊端在于性能的評估對訓(xùn)練集和測試集的分割比例較為敏感。
K交叉驗(yàn)證(參考前面)
結(jié)構(gòu)風(fēng)險(xiǎn)最小化:
復(fù)雜性正則化:
信息標(biāo)準(zhǔn):AIC:C(f)=#parameters? ? BIC:C(f)=#parameters*logn
最小描述長度:MDL
18.最小二乘法和最大似然估計(jì)以及正則化最小二乘法和最大后驗(yàn)估計(jì)
19.ROC曲線
TPR(真正例率):真實(shí)值是正例,且預(yù)測為正例的比例
FPR(假正例率):真實(shí)值為負(fù)例,而預(yù)測為正例的比例
ROC曲線就是以TPR為Y軸,以FPR為X軸,然后以一個(gè)對不同的預(yù)測值進(jìn)行分類.
當(dāng)取不同閾值時(shí)會得到不同的TPR和FPR,對應(yīng)于ROC曲線上的一個(gè)點(diǎn)。
那么ROC曲線就反映了FPR與TPR之間動態(tài)關(guān)系的情況。
通俗地來說,即在TPR隨著FPR遞增的情況下,誰增長得更快,快多少的問題。
TPR增長得越快,曲線越往上曲,反映了模型的分類性能就越好。
當(dāng)正負(fù)樣本不平衡時(shí),這種模型評價(jià)方式比起一般的精確度評價(jià)方式的好處尤其顯著。
文檔完整電子版
https://download.csdn.net/download/qq_42368540/68205608
總結(jié)
以上是生活随笔為你收集整理的机器学习期末简答总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 比特率 Kbps kbit/s 1K
- 下一篇: 学海无涯之程序员