机器学习面试问题2
算法原理
LR
logistic(邏輯回歸)是一種廣義線性回歸分析模型,是一種分類算法。?
通過函數L將w‘x+b對應一個隱狀態p,p =L(w‘x+b),然后根據p 與1-p的大小決定因變量的值。L是logistic函數.?
該模型是典型的數學模型,它服從邏輯斯蒂分布。?
二項邏輯斯蒂回歸模型是如下的條件概率分布:?
?
在這里,x是輸入,y是輸出,w是權值向量參數,b是偏置參數。?
對于給定的輸入實例x,按照以上兩個公式可以求得P(Y=1|x)和P(Y=0|x)。邏輯斯蒂回歸比較兩個條件概率值的大小,將實例x分到概率值較大的那一類。?
將權值向量和輸入向量加以擴充,仍記作w,x,即w=(x1,x2,…,wn,b),x=(x1,x2,…,xn,1)。這時,邏輯斯蒂回歸模型如下:?
?
?
線性函數的值越接近正無窮,概率值就越接近1;線性函數的值越接近負無窮,概率值就越接近0.如下圖:?
?
邏輯斯蒂回歸模型學習時,對于給定的訓練數據集可以應用極大似然估計法估計模型參數,這樣,問題就變成了以對數似然函數為目標函數的最優化問題,邏輯斯蒂回歸模型學習中通常采用的方法是梯度下降法及擬牛頓法。得到w的極大似然估計值w’,就可以得到邏輯斯蒂回歸模型。
?
二項邏輯斯蒂回歸模型可以推廣到多項邏輯斯蒂回歸模型:?
?
?
二項邏輯斯蒂回歸的參數估計法也可以推廣到多維邏輯斯蒂回歸。
k-NN
k-NN(k近鄰法)是一種基本分類和回歸方法。
k近鄰模型的三個基本要素:距離度量,k值的選擇,分類決策規則。常用的距離度量是歐式距離及更一般的Lp距離。k值小時,k近鄰模型更復雜;k值大時,k近鄰模型更簡單。k值的選擇反映了對近似誤差與估計誤差之間的權衡,通常由交叉驗證選擇最優的k。常用的分類決策規則是多數表決,對應于經驗風險最小化。
k近鄰模型對應于訓練數據集對特征空間的一個劃分。k近鄰法中,當三個基本要素確定后,其結果唯一確定。
k近鄰法的基本做法:?
對給定的訓練實例點和輸入實例點,首先確定輸入實例點的k個最近鄰訓練實例點,然后利用這k個訓練實例點的類的多數來預測輸入實例的類。
k近鄰法的實現需要考慮如何快速搜索k個最近鄰點。kd樹是一種便于對k維空間中的數據進行快速檢索的數據結構。kd樹是二叉樹,表示對k維空間的一個劃分,其每個節點對應于k維空間劃分中的一個超矩形區域。利用kd樹可以省去對大部分數據點的搜索,從而減少搜索的計算量。
K-Means
K-Means算法是一種聚類算法。?
以歐式距離作為相似度測度,它是求對應某一初始聚類中心向量V最優分類,使得評價指標J最小。算法采用誤差平方和準則函數作為聚類準則函數。
基本思想:從n個對象中任意選擇k個對象為中心進行聚類,而對于剩下的其他對象,則根據它們與這些聚類中心(距離均值所對應的對象)的相似度(距離),按照最小距離分別將它們分配給與其最相似的(距離聚類中心所代表的聚類是最小的)聚類,然后再計算每個所獲新聚類的聚類中心(該聚類中的中心對象)結果將n個對象劃分為k個聚類,且這些聚類滿足:同一聚類中的對象相似度較高,不同聚類中的對象相似度較小。
算法流程:?
首先從n個數據對象中任意選擇k個對象作為初始聚類中心,將剩下的其他對象分別計算它們到這k個聚類中心的距離,歸到距離最小的聚類中,每聚一次類,都要重新計算一次聚類中心,規則是將所有對象的距離均值所對應的對象作為聚類中心。?
轉載于:https://www.cnblogs.com/hellochennan/p/6654126.html
總結
- 上一篇: webpack环境搭建使用
- 下一篇: rtpdhw04