最小二乘法least square
上研究生的時候接觸的第一個Loss function就是least square。最近又研究了一下,做個總結吧。
定義看wiki就夠了。公式如下
E(w)=12∑n=1N{y?xWT}2E(w)=12∑n=1N{y?xWT}2其中yy代表類標列向量,xx代表特征行向量,WW代表回歸或者分類參數(shù)矩陣。通過令歐式距離最小化優(yōu)化得到最優(yōu)的WW。
我遇到的第一個問題是,這個公式是怎么得到的,motivation是什么。我個人傾向于最大似然這個角度來解釋。具體如下:
假設回歸或分類模型公式如下:
y=WTx+?y=WTx+??~N(0,σ2)?~N(0,σ2)代表加性高斯噪聲,所以y~N(WTx,σ2)y~N(WTx,σ2)。這時通過獨立觀測xx得到一系列的觀測值X=(x1,y1)….,(xN,yN)X=(x1,y1)….,(xN,yN),則可寫出對應的似然函數(shù)
p(y∣X,w,σ)=ΠNn=1N(WTx,σ2)p(y∣X,w,σ)=Πn=1NN(WTx,σ2)兩邊同取自然對數(shù),則
ln(p(y∣X,w,σ))=∑i=1Nln(N(WTx,σ2))ln(p(y∣X,w,σ))=∑i=1Nln(N(WTx,σ2))而N(WTx,σ2)=12πσ2√exp(?(y?WTx2)2σ2)N(WTx,σ2)=12πσ2exp?(?(y?WTx)22σ2)
故
ln(p(y∣X,w,σ))=?12σ2∑n=1N{yn?WTxn}2?12ln(2πσ2)ln(p(y∣X,w,σ))=?12σ2∑n=1N{yn?WTxn}2?12ln(2πσ2)最大似然函數(shù),求解W,
W?=argminW?12σ2∑n=1N{yn?WTxn}2?12ln(2πσ2)W?=argminW?12σ2∑n=1N{yn?WTxn}2?12ln(2πσ2)上式中第二項與WW無關,可以省略,故
W?=argminW?12σ2∑n=1N{yn?WTxn}2W?=argminW?12σ2∑n=1N{yn?WTxn}2把上式中的σ2σ2取掉,就是我們熟悉的最小二乘法啦。
求解時,對對數(shù)似然函數(shù)求偏導(注意矩陣求導的規(guī)則)
?ln(p(y∣X,w,σ))=?∑Nn=1{yn?WTxn}xTn?ln(p(y∣X,w,σ))=?∑n=1N{yn?WTxn}xnT?令上式為0,則有
∑n=1NynxTn=WT∑n=1NxnxTn∑n=1NynxnT=WT∑n=1NxnxnT兩邊同取矩陣的逆,則有:?∑Nn=1xnyTn=∑Nn=1xnxTnW∑n=1NxnynT=∑n=1NxnxnTW
如果用YY表示類標矩陣,XX表示特征矩陣,則有?XYT=XXTWXYT=XXTW?W=(XXT)?1XYTW=(XXT)?1XYT
上面的公式稱為normal equation。可以求得WW的封閉解,但是只要做過實驗的都知道,如果XX的維數(shù)稍微一大,求逆的過程非常非常非常慢,且要消耗非常非常多的資源。所以WW一般用梯度下降法求解。
最大似然法在一定程度上證明了最小二乘法的合理性,但是事實上在歷史上最小二乘的出現(xiàn)早于前者,所以可以從其它的角度思考一下最小二乘的合理性。比如最小二乘的幾何意義,這篇文章講的挺好的,看了之后受益匪淺。
from:?http://bucktoothsir.github.io/blog/2015/12/04/leastsquare/
總結
以上是生活随笔為你收集整理的最小二乘法least square的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Fisher Vector(FV)向量
- 下一篇: Fishe向量Fisher Vecotr