使用Seq2Seq做统计机器翻译
Title
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
地址:https://arxiv.org/pdf/1406.1078.pdf
使用循環(huán)神經(jīng)網(wǎng)絡的解碼編碼結構做統(tǒng)計機器翻譯
Abstract
本文提出了一種神經(jīng)網(wǎng)絡模型——解碼編碼結構的循環(huán)神經(jīng)網(wǎng)絡。編碼部分負責處理固定長度序列的向量表示,解碼部分處理另一個序列的表示.
這個模型使用“最大化target序列概率給定source序列”進行訓練,The two networks are trained jointly to maximize the conditional probability of the target sequence given a source sequence.
L=argmax(1NΣn=1Nlogpθ(yn∣xn))L = argmax(\frac{1}{N}\Sigma_{n=1}^{N}logp_\theta(y_n | x_n)) L=argmax(N1?Σn=1N?logpθ?(yn?∣xn?))
1.Introduction
encoder把變長source序列處理成固定長度的向量context vector,decoder把context vector處理成變長target序列;NVM——NV1&1VM
本文提出了一種復雜的隱藏單元hidden unit來提高“記憶容量”并幫助訓練。
作者對encoder-decoder和現(xiàn)存翻譯模型進行對比量化分析,結果顯示encoder-decoder捕捉語言規(guī)律(語義和句法——語言的內(nèi)容和形式)能力更強,翻譯能力更強。
2.RNN Encoder-Decoder
WHAT RNN
RNN的輸出,ht=f(h(t?1),xt)h_t = f(h_{(t-1)},x_t)ht?=f(h(t?1)?,xt?)可以看成條件概率分布P(xt∣xt?1,x3,x2,x1)P(x_t | x_{t-1},x3,x2,x1)P(xt?∣xt?1?,x3,x2,x1),使用sortmax函數(shù)可以將其映射成(1 of k coding)概率分布
WHAT Context vector
將變長序列(vector)轉(zhuǎn)換成定長序列(context vector),context vector is summary of the whole input sequence這是實現(xiàn)NVM即不定長輸入和不定長輸出的關鍵之一,關鍵之二在于tag < EOS > ,它決定了輸出長度。
decoder的輸出不像上面的encoder,ht=f(h(t?1),yt?1,c)h_t = f(h_{(t-1)},y_{t-1},c)ht?=f(h(t?1)?,yt?1?,c),P(yt∣yt?1,y3,y2,y1)P(y_t | y_{t-1},y3,y2,y1)P(yt?∣yt?1?,y3,y2,y1)
Hidden Unit that Adaptively Remembers and Forget
作者受LSTM啟發(fā),提出了一種更容易實現(xiàn)和計算的隱藏單元GRU
3.Statistical Machine Translation
介紹了前人的相關的工作
4.Experiments
任務:英譯法的機器翻譯任務
數(shù)據(jù):收集了新聞、報紙等英文和法文數(shù)據(jù),進行篩選,保留詞頻最高覆蓋93%數(shù)據(jù)集的15000單詞,oov做unk
基準:Moses,BLEU分數(shù)在訓練集30.64在測試集33.3
結果:
5.Conclusion
-
提出了的模型,可以學習到從任意長度序列source到任意長度序列target的映射,提升翻譯BLEU分數(shù);
-
提出了自適應記憶和遺忘的隱藏單元——帶重置門和更新門的GRU;
總結
以上是生活随笔為你收集整理的使用Seq2Seq做统计机器翻译的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 双盲插全功能USB-C显示器+HDMI接
- 下一篇: 【JY】ETABS与Perform3D弹