rnn 梯度消失爆炸
文章目錄
- 梯度消失和爆炸原理
- 求導(dǎo)知識
- RNN推導(dǎo)
梯度消失和爆炸原理
求導(dǎo)知識
y=x2y = x^2y=x2
dy\mathrmze8trgl8bvbq {y}dy 導(dǎo)數(shù)
dydx\Large \frac {\mathcalze8trgl8bvbq {y}} {\mathcalze8trgl8bvbq{x}}dxdy? 偏導(dǎo)
RNN推導(dǎo)
正向傳播:
at=wxxt+whht?1+bta_t=w_xx_t + w_hh_{t-1} + b_tat?=wx?xt?+wh?ht?1?+bt?
ht=σ(at)h_t = \sigma(a_t)ht?=σ(at?)
y^=softmax(wyht+by)\hat{y} =softmax(w_yh_t+b_y)y^?=softmax(wy?ht?+by?)
定義loss:
用logloss,TODO:多分類的logloss為啥是下面的格式?為啥不是loss=∑[?ylog(y^)?(1?y)log(1?y^)]loss = \sum[-ylog(\hat{y})-(1-y)log(1-\hat{y})]loss=∑[?ylog(y^?)?(1?y)log(1?y^?)]
loss=L=∑i=1n?yilog(yi^)loss = \mathcal{L} = \displaystyle\sum_{i=1}^{n}-y_ilog(\hat{y_i})loss=L=i=1∑n??yi?log(yi?^?)
dLdwt=dLdatdatdwt=dLdat\Large \frac {\mathrmze8trgl8bvbq\mathcal{L}} {\mathrmze8trgl8bvbqw_t} = \frac {\mathrmze8trgl8bvbq\mathcal{L}} {\mathrmze8trgl8bvbqa_t} \frac{\mathrmze8trgl8bvbqa_t} {\mathrmze8trgl8bvbqw_t}= \frac {\mathrmze8trgl8bvbq\mathcal{L}} {\mathrmze8trgl8bvbqa_t}dwt?dL?=dat?dL?dwt?dat??=dat?dL?
參考1
參考2
參考3
總結(jié)
以上是生活随笔為你收集整理的rnn 梯度消失爆炸的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tf loss logloss
- 下一篇: NLP jieba分词源码解析