當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

LSTM实现详解

發(fā)布時(shí)間：2025/7/25 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 LSTM实现详解小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

LSTM實(shí)現(xiàn)詳解

發(fā)表于2015-09-14 16:58|?5021次閱讀| 來(lái)源Apaszke Github|?3?條評(píng)論| 作者Adam Paszke

LSTM神經(jīng)網(wǎng)絡(luò)RNN深度學(xué)習(xí) allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-09-14%2F2825693%3Futm_source%3Dtuicool&type=3&count=&appkey=&title=Long%20Short%20Term%E7%BD%91%E7%BB%9C%E4%B8%80%E8%88%AC%E5%8F%AB%E5%81%9A%20LSTM%EF%BC%8C%E6%98%AF%E4%B8%80%E7%A7%8D%20RNN%20%E7%89%B9%E6%AE%8A%E7%9A%84%E7%B1%BB%E5%9E%8B%EF%BC%8C%E5%8F%AF%E4%BB%A5%E5%AD%A6%E4%B9%A0%E9%95%BF%E6%9C%9F%E4%BE%9D%E8%B5%96%E4%BF%A1%E6%81%AF%E3%80%82LSTM%20%E7%94%B1%20Hochreiter%20%26%20Schmidhuber%20(1997)%20%E6%8F%90%E5%87%BA%EF%BC%8C%E5%B9%B6%E5%9C%A8%E8%BF%91%E6%9C%9F%E8%A2%AB%20Alex%20Graves%20%E8%BF%9B%E8%A1%8C%E4%BA%86%E6%94%B9%E8%89%AF%E5%92%8C%E6%8E%A8%E5%B9%BF%E3%80%82%E7%A9%B6%E7%AB%9F%E5%A6%82%E4%BD%95%E5%AE%9E%E7%8E%B0LSTM%EF%BC%8C%E7%94%B1%E6%AD%A4%E6%96%87%E5%B8%A6%E7%BB%99%E5%A4%A7%E5%AE%B6%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1461833888927" width="22" height="16">摘要：Long Short Term網(wǎng)絡(luò)一般叫做 LSTM，是一種 RNN 特殊的類型，可以學(xué)習(xí)長(zhǎng)期依賴信息。LSTM 由 Hochreiter & Schmidhuber (1997) 提出，并在近期被 Alex Graves 進(jìn)行了改良和推廣。究竟如何實(shí)現(xiàn)LSTM，由此文帶給大家。

前言

在很長(zhǎng)一段時(shí)間里，我一直忙于尋找一個(gè)實(shí)現(xiàn)LSTM網(wǎng)絡(luò)的好教程。它們似乎很復(fù)雜，而且在此之前我從來(lái)沒(méi)有使用它們做過(guò)任何東西。在互聯(lián)網(wǎng)上快速搜索并沒(méi)有什么幫助，因?yàn)槲艺业降亩际且恍┗脽羝?/p>

幸運(yùn)地是，我參加了Kaggle EEG?競(jìng)賽，而且我認(rèn)為使用LSTM很有意思，最后還理解了它的工作原理。這篇文章基于我的解決方案，使用的是Andrej Karpathy的char-rnn代碼，這也是我強(qiáng)烈推薦給大家的。

RNN誤區(qū)

我感覺(jué)有一件很重要的事情一直未被大家充分強(qiáng)調(diào)過(guò)（而且這也是我為什么不能使用RNN做我想做的事情的主要原因）。RNN和前饋神經(jīng)網(wǎng)絡(luò)并沒(méi)有很大不同。最容易實(shí)現(xiàn)RNN的一種方法就是像前饋神經(jīng)網(wǎng)絡(luò)使用部分輸入到隱含層，以及一些來(lái)自隱含層的輸出。在網(wǎng)絡(luò)中沒(méi)有任何神奇的內(nèi)部狀態(tài)。它作為輸入的一部分。

RNN的整體結(jié)構(gòu)與前饋網(wǎng)絡(luò)的結(jié)構(gòu)非常相似

LSTM回顧

本節(jié)內(nèi)容將僅覆蓋LSTM的正式定義。有很多其它的好博文，都詳細(xì)地描述了你該如何設(shè)想并思考這些等式。

LSTM有多種變換形式，但我們只講解一個(gè)簡(jiǎn)單的。一個(gè)Cell由三個(gè)Gate（input、forget、output）和一個(gè)cell單元組成。Gate使用一個(gè)sigmoid激活函數(shù)，而input和cell state通常會(huì)使用tanh來(lái)轉(zhuǎn)換。LSTM 的cell可以使用下列的等式來(lái)定義：

Gates：

輸入變換：

狀態(tài)更新：

使用圖片描述類似下圖：

由于門控機(jī)制，Cell可以在工作時(shí)保持一段時(shí)間的信息，并在訓(xùn)練時(shí)保持內(nèi)部梯度不受不利變化的干擾。Vanilla LSTM 沒(méi)有forget gate，并在更新期間添加無(wú)變化的cell狀態(tài)（它可以看作是一個(gè)恒定的權(quán)值為1的遞歸鏈接），通常被稱為一個(gè)Constant Error Carousel（CEC）。這樣命名是因?yàn)樗鉀Q了在RNN訓(xùn)練時(shí)一個(gè)嚴(yán)重的梯度消失和梯度爆炸問(wèn)題，從而使得學(xué)習(xí)長(zhǎng)期關(guān)系成為可能。

建立你自己的LSTM層

這篇教程的代碼使用的是Torch7。如果你不了解它也不必?fù)?dān)心。我會(huì)詳細(xì)解釋的，所以你可以使用你喜歡的框架來(lái)實(shí)現(xiàn)相同的算法。

該網(wǎng)絡(luò)將作為nngraph.gModule模塊來(lái)實(shí)現(xiàn)，基本上表示我們定義的一個(gè)由標(biāo)準(zhǔn)nn模塊組成的神經(jīng)網(wǎng)絡(luò)計(jì)算圖。我們需要以下幾層：

nn.Identity() - 傳遞輸入（用來(lái)存放輸入數(shù)據(jù)）
nn.Dropout(p) - 標(biāo)準(zhǔn)的dropout模塊（以1-p的概率丟棄一部分隱層單元）
nn.Linear(in, out) - 從in維到out維的一個(gè)仿射變換
nn.Narrow(dim, start, len) - 在第dim方向上選擇一個(gè)子向量，下標(biāo)從start開(kāi)始，長(zhǎng)度為len
nn.Sigmoid() - 應(yīng)用sigmoid智能元素
nn.Tanh() - 應(yīng)用tanh智能元素
nn.CMulTable() - 輸出張量（tensor）的乘積
nn.CAddTable() - 輸出張量的總和

輸入

首先，讓我們來(lái)定義輸入形式。在lua中類似數(shù)組的對(duì)象稱為表，這個(gè)網(wǎng)絡(luò)將接受一個(gè)類似下面的這個(gè)張量表。

local?inputs?=?{}
table.insert(inputs, nn.Identity()())??-- network input
table.insert(inputs, nn.Identity()())??-- c at time t-1
table.insert(inputs, nn.Identity()())??-- h at time t-1
local?input?=?inputs[1]
local?prev_c?=?inputs[2]
local?prev_h?=?inputs[3]

Identity模塊只將我們提供給網(wǎng)絡(luò)的輸入復(fù)制到圖中。

計(jì)算gate值

為了加快我們的實(shí)現(xiàn)，我們會(huì)同時(shí)運(yùn)用整個(gè)LSTM層轉(zhuǎn)換。

locali2h=nn.Linear(input_size,4*rnn_size)(input)-- input to hiddenlocalh2h=nn.Linear(rnn_size,4*rnn_size)(prev_h)-- hidden to hiddenlocalpreactivations=nn.CAddTable()({i2h,h2h})-- i2h + h2h

如果你不熟悉nngraph，你也許會(huì)覺(jué)得奇怪，在上一小節(jié)我們建立的inputs屬于nn.Module，這里怎么已經(jīng)用圖節(jié)點(diǎn)調(diào)用一次了。事實(shí)上發(fā)生的是，第二次調(diào)用把nn.Module轉(zhuǎn)換為nngraph.gModule，并且參數(shù)指定了該節(jié)點(diǎn)在圖中的父節(jié)點(diǎn)。

preactivations輸出一個(gè)向量，該向量由輸入和前隱藏狀態(tài)的一個(gè)線性變換生成。這些都是原始值，用來(lái)計(jì)算gate 激活函數(shù)和cell輸出。這個(gè)向量被分為四個(gè)部分，每一部分的大小為rnn_size。第一部分將用于in gates，第二部分用于forget gate，第三部分用于out gate，而最后一個(gè)作為cell input（因此各個(gè)gate的下標(biāo)和cell數(shù)量i的輸入為{i, rnn_size+i, 2?rnn_size+i, 3?rnn_size+i}）。

接下來(lái)，我們必須運(yùn)用非線性，但是盡管所有的gate使用的都是sigmoid，我們?nèi)允褂胻anh對(duì)輸入進(jìn)行預(yù)激活處理。正因?yàn)檫@個(gè)，我們將會(huì)使用兩個(gè)nn.Narrow模塊，這會(huì)選擇預(yù)激活向量中合適的部分。

-- gates
localpre_sigmoid_chunk=nn.Narrow(2,1,3*rnn_size)(preactivations)
localall_gates=nn.Sigmoid()(pre_sigmoid_chunk)
-- input
localin_chunk=nn.Narrow(2,3*rnn_size+1,rnn_size)(preactivations)
localin_transform=nn.Tanh()(in_chunk) 在非線性操作之后，我們需要增加更多的nn.Narrow，然后我們就完成了gates。

localin_gate=nn.Narrow(2,1,rnn_size)(all_gates)
localforget_gate=nn.Narrow(2,rnn_size+1,rnn_size)(all_gates)
localout_gate=nn.Narrow(2,2*rnn_size+1,rnn_size)(all_gates)

Cell和hidden state

有了計(jì)算好的gate值，接下來(lái)我們可以計(jì)算當(dāng)前的Cell狀態(tài)了。所有的這些需要的是兩個(gè)nn.CMulTable模塊（一個(gè)用于，一個(gè)用于），并且nn.CAddTable用于把它們加到當(dāng)前的cell狀態(tài)上。

-- previous cell state contribution
localc_forget=nn.CMulTable()({forget_gate,prev_c})
-- input contribution
localc_input=nn.CMulTable()({in_gate,in_transform})
-- next cell state
localnext_c=nn.CAddTable()({
?c_forget,
?c_input
}) 最后，是時(shí)候來(lái)實(shí)現(xiàn)hidden 狀態(tài)計(jì)算了。這是最簡(jiǎn)單的部分，因?yàn)樗鼉H僅是把tanh應(yīng)用到當(dāng)前的cell 狀態(tài)(nn.Tanh)并乘上output gate(nn.CMulTable)。

localc_transform=nn.Tanh()(next_c)
localnext_h=nn.CMulTable()({out_gate,c_transform})

定義模塊

現(xiàn)在，如果你想要導(dǎo)出整張圖作為一個(gè)獨(dú)立的模塊，你可以使用下列代碼把它封裝起來(lái)：

-- module outputs
outputs={}
table.insert(outputs,next_c)
table.insert(outputs,next_h)

-- packs the graph into a convenient module with standard API (:forward(), :backward())
returnnn.gModule(inputs,outputs)

實(shí)例

LSTM layer實(shí)現(xiàn)可以在這里獲得。你也可以這樣使用它：

th> LSTM= require 'LSTM.lua'?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?[0.0224s]
th> layer= LSTM.create(3, 2)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?[0.0019s]
th> layer:forward({torch.randn(1,3), torch.randn(1,2), torch.randn(1,2)})
{ ?
1 : DoubleTensor - size: 1x2?
?2 : DoubleTensor - size: 1x2}?
}
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?[0.0005s]

為了制作一個(gè)多層LSTM網(wǎng)絡(luò)，你可以在for循環(huán)中請(qǐng)求后續(xù)層，用上一層的next_h作為下一層的輸入。你可以查看這個(gè)例子。

訓(xùn)練

最后，如果你感興趣，請(qǐng)留個(gè)評(píng)論吧，我會(huì)試著擴(kuò)展這篇文章！

結(jié)束語(yǔ)

確實(shí)是這樣！當(dāng)你理解怎樣處理隱藏層的時(shí)候，實(shí)現(xiàn)任何RNN都會(huì)很容易。僅僅把一個(gè)常規(guī)MLP層放到頂部，然后連接多個(gè)層并且把它和最后一層的隱藏層相連，你就完成了。

如果你有興趣的話，下面還有幾篇關(guān)于RNN的好論文：

Visualizing and Understanding Recurrent Networks
An Empirical Exploration of Recurrent Network Architectures
Recurrent Neural Network Regularization
Sequence to Sequence Learning with Neural Networks

原文鏈接：LSTM implementation explained（編譯/劉帝偉審校/趙屹華、朱正貴、李子健責(zé)編/周建丁）

譯者簡(jiǎn)介:?劉帝偉,中南大學(xué)軟件學(xué)院在讀研究生，關(guān)注機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及生物信息領(lǐng)域。

鏈接：深入淺出LSTM神經(jīng)網(wǎng)絡(luò)

1. 加入CSDN人工智能用戶微信群，交流人工智能相關(guān)技術(shù)，加微信號(hào)“jianding_zhou”或掃下方二維碼，由工作人員加入。請(qǐng)注明個(gè)人信息和入群需求，并在入群后按此格式改群名片：機(jī)構(gòu)名-技術(shù)方向-姓名/昵稱。

2. 加入CSDN 人工智能技術(shù)交流QQ群，請(qǐng)搜索群號(hào)加入：465538150。同上注明信息。

3. CSDN高端專家微信群，采取受邀加入方式，不懼高門檻的請(qǐng)加微信號(hào)“jianding_zhou”或掃描下方二維碼，PS：請(qǐng)務(wù)必帶上你的BIO。

總結(jié)

以上是生活随笔為你收集整理的LSTM实现详解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

详解
lstm

上一篇： Hierarchical Cluster
下一篇：深度学习文档1.0