5.1 代价函数-机器学习笔记-斯坦福吴恩达教授
代價函數(shù)
在邏輯回歸中,我們的預測函數(shù)為:
hθ(x)=11+e?θTxh_θ(x)=\frac 1 {1+e^{?θ^Tx}}hθ?(x)=1+e?θTx1?
代價函數(shù)為:
cost=?ylog(hθ(x))+(1?y)log(1?hθ(x))cost=?y\ log(h_θ(x))+(1?y)\ log(1?h_θ(x))cost=?y?log(hθ?(x))+(1?y)?log(1?hθ?(x))
當 y=1y=1y=1 時,代價函數(shù)就為:
cost=?log(hθ(x))cost=?log(h_θ(x))cost=?log(hθ?(x))=?log11+e?z,z=θTx=?log\frac 1{1+e^{?z}},z=θ^Tx=?log1+e?z1?,z=θTx
此時,代價函數(shù)隨 zzz 的變化曲線如下圖:
不難看出,當 y=1y=1y=1 時,隨著 zzz 取值變大,預測代價變小,因此,邏輯回歸想要在面對正樣本 y=1y=1y=1 時,獲得足夠高的預測精度,就希望 z=θTx?0z=θ^Tx?0z=θTx?0 。而 SVM 則將上圖的曲線拉直為下圖中的折線,構(gòu)成了 y=1y=1y=1 時的代價函數(shù)曲線 cost1(z)cost_1(z)cost1?(z) :
當 y=1y=1y=1 時,為了預測精度足夠高,SVM 希望 θTx≥1θ^Tx≥1θTx≥1 。
同樣,在 y=0y=0y=0 時,SVM 定義了代價函數(shù) cost0(z)cost_0(z)cost0?(z) ,為了預測精度足夠高,SVM 希望 θTx≤?1θ^Tx≤?1θTx≤?1 :
最小化預測代價
SVM定義其最小化預測代價的過程為:
min?θC[∑i=1my(i)cost1(θTx(i))+(1?y(i))cost0(θTx(i))]+12∑j=1nθj2\min_θC[∑_{i=1}^my^{(i)}cost_1(θ^Tx^{(i)})+(1?y^{(i)})cost_0(θ^Tx^{(i)})]+\frac 12∑_{j=1}^nθ^2_jθmin?C[i=1∑m?y(i)cost1?(θTx(i))+(1?y(i))cost0?(θTx(i))]+21?j=1∑n?θj2?
而在邏輯回歸中,最小化預測代價的過程為:
min?θ1m[∑i=1my(i)(?loghθ(x(i)))+(1?y(i))(?log(1?hθ(x(i))))]+λ2m∑j=1nθj2\min_{θ}\frac 1m[∑_{i=1}^my^{(i)}(?log\ h_θ(x^{(i)}))+(1?y^{(i)})(?log\ (1?h_θ(x^{(i)})))]+\frac λ{2m}∑_{j=1}^nθ^2_jθmin?m1?[i=1∑m?y(i)(?log?hθ?(x(i)))+(1?y(i))(?log?(1?hθ?(x(i))))]+2mλ?j=1∑n?θj2?
事實上,我們可以將邏輯回歸的代價函數(shù)簡要描述為:
cost=A+λBcost=A+λBcost=A+λB
而 SVM 的代價函數(shù)描述為:
cost=CA+Bcost=CA+Bcost=CA+B
即,在邏輯回歸中,我們通過正規(guī)化參數(shù) λλλ 調(diào)節(jié) A、BA 、 BA、B 所占的權(quán)重,且 AAA 的權(quán)重與 λλλ 取值成反比。而在 SVM 中,則通過參數(shù) CCC 調(diào)節(jié) A、BA 、 BA、B 所占的權(quán)重,且 AAA 的權(quán)重與 CCC 的取值成反比。亦即,參數(shù) CCC 可以被認為是扮演了 1λ\frac1λλ1? 的角色。
預測函數(shù)
當我們訓練得到 θ 之后,可以代入下面的 SVM 預測函數(shù)進行預測:
hθ(x)={1ifθTx≥00otherwiseh_θ(x)= \begin{cases} 1 & if \ θ^Tx≥0\\ 0 & otherwise \end{cases}hθ?(x)={10?if?θTx≥0otherwise?
總結(jié)
以上是生活随笔為你收集整理的5.1 代价函数-机器学习笔记-斯坦福吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4.7 程序示例--算法诊断-机器学习笔
- 下一篇: 5.2 大间距分类器-机器学习笔记-斯坦