logistic模型原理与推导过程分析(3)
附錄:迭代公式向量化
????????θ相關的迭代公式為:
?
????????如果按照此公式操作的話,每計算一個θ需要循環m次。為此,我們需要將迭代公式進行向量化。
首先我們將樣本矩陣表示如下:
將要求的θ也表示成矩陣的形式:
將x·θ的乘積記為A,有:
將hθ(x)?y記為E:
由上面的式子可以看出,g(A)的參數是一個m*1的矩陣,或者說是一個列向量。如果我們設計函數g的時候,支持傳入一個列向量,并返回一個列向量,則hθ(x)?y可以一次計算得到結果。
附錄2:批量梯度下降BGD與隨機梯度SGD下降
?對于迭代公式
最大的好處就是形式簡單明了,直接將樣本矩陣與殘差矩陣帶入迭代即可。而且這種方式是將所有的訓練樣本代入,最終所求得的解也是全局最優解,求解出來的參數將使損失函數最小。如果將所有樣本矩陣帶入進行計算,這就是所謂的批量梯度下降(BGD)。
????????但在實際應用場景中,最大的問題就是樣本矩陣大到放不進內存,導致進行一輪迭代需要的運算時間非常長,這個時候,批量梯度下降就不是那么好用了。這個時候,我們可以采用考慮隨機梯度下降(SGD)。
????????BGD是一次訓練帶入所有樣本,SGD則是每來一次樣本進行一次計算:
????????????????????????????????????????????????????????????????i表示是第i個樣本,j表示樣本第j個維度。
????????SGD是通過每個樣本來迭代更新。如果樣本的數量很多,有可能才迭代了一小部分樣本,就已經得到了θ的解。所以SGD的收斂速度可能比BGD要快,而且運算量小。但是SGD的問題是每次迭代并不是全局最優解的方向,尤其是遇到噪聲數據,影響會比較大。有的時候SGD在最優解附近會存在比較明顯的鋸齒震蕩現象,即損失函數的值會在最優解附近上下震蕩一段時間才最終收斂。
?
---------------------------------------------------------------------------------------------------------
連載。。。。
logistic模型原理與推導過程分析(1)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031296
logistic模型原理與推導過程分析(2)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031899
logistic模型原理與推導過程分析(2)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031899
總結
以上是生活随笔為你收集整理的logistic模型原理与推导过程分析(3)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聚类(Clustering): K-me
- 下一篇: 机械厂html5手机模板,营销型机械消费