Learning representations by back-propagating errors原文解读
反向傳播的原文是:
1986年的《Learning representations by back-propagating errors》
xj=∑iyiwji(1)x_j=\sum_iy_iw_{ji}(1)xj?=i∑?yi?wji?(1)
yj=11+e?xi(2)y_j=\frac{1}{1+e^{-x_i}}(2)yj?=1+e?xi?1?(2)
這個就是Sigmoid函數
E=12∑c∑j(yj,c?dj,c)2(3)E=\frac{1}{2}\sum_c\sum_j(y_{j,c}-d_{j,c})^2(3)E=21?c∑?j∑?(yj,c??dj,c?)2(3)
?E?yj=yj?dj(4)\frac{?E}{?y_j}=y_j-d_j(4)?yj??E?=yj??dj?(4)
?E?xj=?E?yjyj(1?yj)(5)\frac{?E}{?x_j}=\frac{?E}{?y_j}y_j(1-y_j)(5)?xj??E?=?yj??E?yj?(1?yj?)(5)
?E?wji=?E?xj??xj?wji=?E?xjyi(6)\frac{?E}{?w_{ji}}=\frac{?E}{?x_j}·\frac{?x_j}{?w_{ji}}=\frac{?E}{?x_j}y_i(6)?wji??E?=?xj??E???wji??xj??=?xj??E?yi?(6)
?E?yi=∑j?E?xj?wji(7)\frac{?E}{?y_i}=\sum_j\frac{?E}{?x_j}·w_{ji}(7)?yi??E?=j∑??xj??E??wji?(7)
Δw=?ε?E?w(8)\Delta w=-\varepsilon\frac{?E}{?w}(8)Δw=?ε?w?E?(8)
Δw(t)=?ε?E?w(t)+αΔw(t?1)(9)\Delta w(t)=-\varepsilon\frac{?E}{?w(t)}+\alpha\Delta w(t-1)(9)Δw(t)=?ε?w(t)?E?+αΔw(t?1)(9)
原文沒有提及b是怎么變化的,另外參考了下文獻:
https://blog.csdn.net/qq_29762941/article/details/80343185
Δb=?ε?E?b\Delta b=-\varepsilon\frac{?E}{?b}Δb=?ε?b?E?
##########如何記憶######################
首先記住這個神經元:
然后就是下面的一大堆
?E?wji=?E?yj??yj?xj??xj?wji\frac{?E}{?w_{ji}}=\frac{?E}{?y_j}·\frac{?y_j}{?x_j}·\frac{?x_j}{?w_{ji}}?wji??E?=?yj??E???xj??yj????wji??xj??
上面三個因子怎么計算呢?
?E?yj的計算:12(dj?yj)2,dj是實際的類別標簽,yj是預測結果\frac{?E}{?y_j}的計算:\frac{1}{2}(d_j-y_j)^2,d_j是實際的類別標簽,y_j是預測結果?yj??E?的計算:21?(dj??yj?)2,dj?是實際的類別標簽,yj?是預測結果剩下就是求導操作。
?yj?xj的計算:就是對式(2)進行求導\frac{?y_j}{?x_j}的計算:就是對式(2)進行求導?xj??yj??的計算:就是對式(2)進行求導
?xj?wji的計算:這里的xj不要誤解成是整個神經元的輸入端,而是激活函數的輸入端,所以這個的結果就是yi\frac{?x_j}{?w_{ji}}的計算:這里的x_j不要誤解成是整個神經元的輸入端,而是激活函數的輸入端,所以這個的結果就是y_i?wji??xj??的計算:這里的xj?不要誤解成是整個神經元的輸入端,而是激活函數的輸入端,所以這個的結果就是yi?
hidden unit 就是放激活函數的。
也就是后期論文中常見的隱藏層。
怎么個傳播法呢?
最后就是wji=?ε△w+wjiw_{ji}=-\varepsilon\triangle w+w_{ji}wji?=?ε△w+wji?
總結
以上是生活随笔為你收集整理的Learning representations by back-propagating errors原文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: some understandings
- 下一篇: Finding Structure in