对 RNN 中 BPTT 求导过程的解析尝试
生活随笔
收集整理的這篇文章主要介紹了
对 RNN 中 BPTT 求导过程的解析尝试
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
(轉載一次對 RNN 中 BPTT 求導過程的解析嘗試 - 知乎
其中關于雅可比的內容 參考: 學習筆記之——Jacobian matrix(雅可比矩陣)學習筆記之——Jacobian matrix(雅可比矩陣)_gwpscut的博客-CSDN博客_jacobian matrix)
這篇文章是本人的隨筆,目的是為了記錄 RNN 的 BPTT 推導過程中容易疑惑或者忽略的關鍵步驟。適合已熟悉 RNN 基本概念的人,因為這篇文章的內容是 “斷章取義” 的,所以如果不了解基本概念可能不能順利的將其中的符號對號入座從而影響閱讀。
內容概覽及相關背景知識
產生本文的契機是學習 CS224N 時,課程中通過對 RNN 的權重求導來解釋梯度爆炸,如下圖。本文就是對這兩頁 PPT 和相應 note(如下) 中求導過程的補充,主要解決兩個問題: 1. 怎么推導出對權重求偏導公式,區別于其他博文的是本文不省略任何步驟,包括了關鍵步驟中 chain rule 應用;2. 某一 time-step 的隱藏態??對上一 time-step 隱藏態??的求導。
1 來自 CS224N
2 來自 CS224N
note
本文重點:兩個問題
?
答案見下圖,兩塊紫色部分是關鍵。
總結
以上是生活随笔為你收集整理的对 RNN 中 BPTT 求导过程的解析尝试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jQuery绑定一次性事件和注销事件
- 下一篇: 自律·财大自习·Java