當前位置：首頁 > 人工智能 > 循环神经网络 >内容正文

循环神经网络

深度学习之循环神经网络（10）GRU简介

發布時間：2023/12/15 循环神经网络 28 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习之循环神经网络（10）GRU简介小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

深度學習之循環神經網絡（10）GRU簡介

1. 復位門
2. 更新門
3. GRU使用方法

?LSTM具有更長的記憶能力，在大部分序列任務上面都取得了比基礎RNN模型更好的性能表現，更重要的是，LSTM不容易出現梯度彌散現象。但是LSTM結構相對較復雜，計算代價較高，模型參數量較大。因此科學家們嘗試簡化LSTM內部的計算流程，特別是減少門控數量。研究發現，遺忘門是LSTM中最重要的門控 [1]，甚至發現只有遺忘門的簡化版網絡在多個基準數據集上面優于標準LSTM網絡。在眾多的簡化版LSTM中，門控循環網絡（Gated Recurrent Unit，簡稱GRU）是應用最廣泛的RNN變種之一。GRU把內部狀態向量和輸出向量合并，統一為狀態向量

h\boldsymbol h

，門控數量也較少到2個：復位門（Reset Gate）和更新門（Update Gate），如下圖所示：

GRU網絡結構

?下面我們來分別介紹復位門和更新門的原理與功能。

[1] J. Westhuizen 和 J. Lasenby, “The unreasonable effectiveness of the forget gate,” CoRR, 卷 abs/1804.04849, 2018.

1. 復位門

?復位門用于控制上一個時間戳的狀態 $ht?1\boldsymbol h_{t-1}$ 進入GRU的量。門控向量 $gr\boldsymbol g_r$ 由當前時間戳輸入 $xt\boldsymbol x_t$ 和上一時間戳狀態 $ht?1\boldsymbol h_{t-1}$ 變換得到，關系如下：
$gr=σ(Wr[ht?1,xt]+br)\boldsymbol g_r=σ(\boldsymbol W_r [\boldsymbol h_{t-1},\boldsymbol x_t ]+\boldsymbol b_r)$
其中 $Wr\boldsymbol W_r$ 和 $br\boldsymbol b_r$ 為復位門的參數，由反向傳播算法自動優化， $σ$ 為激活函數，一般使用Sigmoid函數。門控向量 $gr=0\boldsymbol g_r=0$ 時，新輸入 $h~t\tilde \boldsymbol h_t$ 全部來自于輸入 $xt\boldsymbol x_t$ ，不接受 $ht?1\boldsymbol h_{t-1}$ ，此時相當于復位 $ht?1\boldsymbol h_{t-1}$ 。當 $gr=1\boldsymbol g_r=1$ 時， $h_{t-1}$ 和輸入 $xt\boldsymbol x_t$ 共同產生新輸入 $h~t\tilde\boldsymbol h_t$ ，如下圖所示：

復位門

2. 更新門

?更新門用控制上一時間戳狀態 $ht?1\boldsymbol h_{t-1}$ 和新輸入 $h~t\tilde\boldsymbol h_t$ 對新狀態向量 $ht\boldsymbol h_t$ 的影響程度。更新門控向量 $gz\boldsymbol g_z$ 由
$gz=σ(Wz[ht?1,xt]+bz)\boldsymbol g_z=σ(\boldsymbol W_z [\boldsymbol h_{t-1},\boldsymbol x_t ]+\boldsymbol b_z)$
得到，其中 $Wz\boldsymbol W_z$ 和 $bz\boldsymbol b_z$ 為更新門的參數，由反向傳播算法自動優化， $σ$ 為激活函數，一般使用Sigmoid函數。 $gz\boldsymbol g_z$ 用于控制新輸入 $h~t\tilde\boldsymbol h_t$ 信號， $1?gz1-\boldsymbol g_z$ 用于控制狀態 $ht?1\boldsymbol h_{t-1}$ 信號：
$ht=(1?gz)ht?1+gzh~t\boldsymbol h_t=(1-\boldsymbol g_z ) \boldsymbol h_{t-1}+\boldsymbol g_z \tilde\boldsymbol h_t$

更新門

可以看到， $h~t\tilde\boldsymbol h_t$ 和 $ht?1\boldsymbol h_{t-1}$ 的更新量處于相互競爭、此消彼長的狀態。當更新門 $gz=0\boldsymbol g_z=0$ 時， $ht\boldsymbol h_t$ 全部來自上一時間戳狀態 $ht?1\boldsymbol h_{t-1}$ ；當更新門 $gz=1\boldsymbol g_z=1$ 時， $ht\boldsymbol h_t$ 全部來自新輸入 $h~t\tilde\boldsymbol h_t$ 。

3. GRU使用方法

?同樣地，在TensorFlow中，也有Cell方式和層方式實現GRU網絡。GRUCell和GRU層的使用方法和之前的SimpleRNNCell、LSTMCell、SimpleRNN和LSTM非常類似。首先是GRUCell的使用，創建GRU Cell對象，并在時間軸上循環展開運算。例如：

import tensorflow as tf from tensorflow.keras import layersx = tf.random.normal([2, 80, 100]) xt = x[:, 0, :] # 得到一個時間戳的輸入 # 初始化狀態向量，GRU只有一個 h = [tf.zeros([2, 64])] cell = layers.GRUCell(64) # 新建GRU Cell，向量長度為64 # 在時間戳維度上解開，循環通過cell for xt in tf.unstack(x, axis=1):out, h = cell(xt, h) # 輸出形狀 print(out.shape)

運行結果如下所示：

(2, 64)

?通過layers.GRU類可以方便創建一層GRU網絡層，通過Sequential容器可以堆疊多層GRU層的網絡。例如：

import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers, Sequentialx = tf.random.normal([2, 80, 100]) xt = x[:, 0, :] # 得到一個時間戳的輸入 # 初始化狀態向量，GRU只有一個 h = [tf.zeros([2, 64])] net = keras.Sequential([layers.GRU(64, return_sequences=True),layers.GRU(64) ]) out = net(x) # 輸出形狀 print(out.shape)

運行結果如下所示：

(2, 64)

總結

以上是生活随笔為你收集整理的深度学习之循环神经网络（10）GRU简介的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度学习之循环神经网络（9）LSTM层使
下一篇： CSS中怎么设置Checkbox复选框控