當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(二)梯度下降

發(fā)布時(shí)間：2024/9/18 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习(二)梯度下降小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在上一節(jié)（線性回歸）中介紹，在線性回歸中參數(shù)值 $θ\theta$ 是不一定可以求出的，但是可以通過梯度下降的方式可求。

在微積分里面，對多元函數(shù)的參數(shù)求偏導(dǎo)數(shù)，把求得的各個(gè)參數(shù)的偏導(dǎo)數(shù)以向量的形式寫出來，就是梯度。比如函數(shù) $f (x, y)$ , 分別對x,y求偏導(dǎo)數(shù)，求得的梯度向量就是 $(?f?x,?f?y)T(\frac {\partial f}{\partial x},\frac {\partial f}{\partial y})^T$ ,簡稱grad f(x,y)或者 $?f(x,y)\nabla f(x,y)$ 。對于在點(diǎn) $x_0,y_0)$ 的具體梯度向量就是 $(?f?x0,?f?y0)T(\frac {\partial f}{\partial x_0},\frac {\partial f}{\partial y_0})^T$ .或者 $?f(x0,y0)\nabla f(x_0,y_0)$ ，如果是3個(gè)參數(shù)的向量梯度，就是 $(?f?x,?f?y,?f?z)T(\frac {\partial f}{\partial x}, \frac {\partial f}{\partial y},\frac{\partial f}{\partial z})^T$ ,以此類推。

那么這個(gè)梯度向量求出來有什么意義呢？他的意義從幾何意義上講，就是函數(shù)變化增加最快的地方。具體來說，對于函數(shù) $f (x, y)$ ,在點(diǎn) $x_0,y_0)$ ，沿著梯度向量的方向就是 $(?f?x0,?f?y0)T(\frac {\partial f}{\partial x_0},\frac {\partial f}{\partial y_0})^T$ 的方向是 $f (x, y)$ 增加最快的地方。或者說，沿著梯度向量的方向，更加容易找到函數(shù)的最大值。反過來說，沿著梯度向量相反的方向，也就是 $?(?f?x0,?f?y0)T-(\frac {\partial f}{\partial x_0},\frac {\partial f}{\partial y_0})^T$ 的方向，梯度減少最快，也就是更加容易找到函數(shù)的最小值。

假設(shè)目標(biāo)函數(shù) $J(θ0,θ1)=12m∑i=1m(hθ(x(i)?y(i))2)J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)} - y^{(i)})^2)$ 。

為什么要除以樣本個(gè)數(shù) $m$ ?
假如有1萬個(gè)樣本，那么會得到一個(gè)目標(biāo)函數(shù) $J(θ)1J(\theta)_1$ ，10萬個(gè)樣本，得到一個(gè)目標(biāo)函數(shù) $J(θ)2J(\theta)_2$ ，那么10萬個(gè)樣本的損失值一定比1萬個(gè)樣本的損失值大，但不能說10萬個(gè)樣本的模型不好，因此需要算一個(gè)平均值 $1m\frac{1}{m}$ 。

我們的目標(biāo)就是要尋找最低點(diǎn)，什么樣的參數(shù)能使得目標(biāo)函數(shù)達(dá)到最低點(diǎn)？

當(dāng)開始的時(shí)候，是一個(gè)隨機(jī)點(diǎn)：

找到當(dāng)前最合適的方向

走一小步，如果走快了就“跌倒”了

按照方向與步伐去更新參數(shù)

批量梯度下降GD

在上面的說法中，要綜合考慮所有的樣本，每個(gè)樣本都需要參與計(jì)算，這個(gè)計(jì)算量是非常大的，很難進(jìn)行迭代，雖然很容易得到最優(yōu)解。
$?f?θi=?1m∑i=1m(yi?hθ(xi))xji\frac {\partial f}{\partial \theta_i}=-\frac{1}{m}\sum_{i=1}^m(y^i-h_\theta(x^i))x_j^i$

$θj′=θj+1m∑i=1m(yi?hθ(xi)xji)\theta_j^\prime=\theta_j+\frac{1}{m}\sum_{i=1}^m(y^i-h_\theta(x^i)x^i_j)$

隨機(jī)梯度下降SGD

每次找一個(gè)樣本，迭代速度快，但不一定每次都朝著收斂的方向，無法判斷好壞。
$θj′=θj+(yi?hθ(xi))xji\theta_j^\prime=\theta_j+(y^i-h_\theta(x^i))x_j^i$

小批量梯度下降

每次更新選擇一小部分?jǐn)?shù)據(jù)來算，比較實(shí)用。首先打亂順序，然后每次拿10個(gè)數(shù)據(jù)
$θj:=θj?α110∑k=ii+9(hθ(x(k)?y(k)))xj(k)\theta_j :=\theta_j-\alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x^{(k)}-y^{(k)}))x_j^{(k)}$

總結(jié)

以上是生活随笔為你收集整理的机器学习(二)梯度下降的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：三星Galaxy S23 FE北京品鉴会
下一篇：微软正从 Win11 中删除“地图”、“