EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量
《使用篇章上下文提升 Transformer 翻譯模型》是搜狗和清華大學(xué)天工研究院合作發(fā)表在 EMNLP 2018 的工作。機(jī)器翻譯在搜狗公司的多個(gè)產(chǎn)品線得到廣泛應(yīng)用,包括搜狗英文搜索、搜狗輸入法、搜狗翻譯 APP、搜狗旅行翻譯寶等。許多產(chǎn)品場(chǎng)景下,都需要使用句子的上下文信息來(lái)幫助翻譯。
為此,我們提出了一個(gè)基于自注意力翻譯模型 Transformer 的篇章級(jí)別翻譯模型,利用豐富的上下文信息來(lái)幫助進(jìn)行句子的翻譯。與此同時(shí),該模型對(duì)機(jī)器翻譯領(lǐng)域篇章級(jí)別翻譯質(zhì)量的提升也有貢獻(xiàn)。
篇章翻譯可以解決機(jī)器翻譯中的上下文依賴等問(wèn)題,是機(jī)器翻譯的重要研究問(wèn)題,也是今年的一個(gè)熱點(diǎn),我們的模型是在 Transformer 效果上最好的之一。?
論文方法
已有的考慮篇章上下文的 NMT 工作主要存在以下幾個(gè)問(wèn)題:?
1. 大多數(shù)方法是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的翻譯模型 RNNsearch 的,無(wú)法移植到最新的基于自注意力的翻譯模型 Transformer 上;
2. 大多數(shù)只在解碼器端利用篇章上下文信息,而沒(méi)有在源端編碼時(shí)使用;?
3. 只能使用篇章級(jí)別的語(yǔ)料進(jìn)行訓(xùn)練,但是篇章級(jí)別的語(yǔ)料規(guī)模比句級(jí)別語(yǔ)料小的多。
我們針對(duì)以上幾個(gè)問(wèn)題進(jìn)行改進(jìn)。首先先在建模方面,我們通過(guò)在自注意力模型上添加模塊來(lái)融入篇章上下文信息(圖 1),其中紅色部分是我們新增的模塊。最左邊這一列是上下文編碼器,其輸入是源端待翻譯的句子同一個(gè)文檔中的前 k 個(gè)句子。上下文編碼器是一個(gè)多層結(jié)構(gòu),每一層都包含一個(gè)自注意力層和一個(gè)前向?qū)?#xff08;類似于 Transformer 的編碼器)。
▲?圖1. 本文提出的模型
但是在實(shí)驗(yàn)中我們發(fā)現(xiàn),上下文編碼器只用 1 層就達(dá)到了很好的效果,使用更多層不僅不能得到更好的效果,還會(huì)對(duì)模型的計(jì)算效率產(chǎn)生負(fù)面影響。接下來(lái),我們使用 multi-head 注意力機(jī)制將得到的篇章上下文的隱層表示同時(shí)融入到源端編碼器和解碼器中。我們將此稱為上下文注意力(Context Attention)。?
為了得到更好的模型,我們采用了兩步訓(xùn)練法來(lái)利用充足的句級(jí)別語(yǔ)料。第一步,我們使用所有可用語(yǔ)料(包括句級(jí)別和篇章級(jí)別)訓(xùn)練一個(gè)標(biāo)準(zhǔn)的自注意力翻譯模型。第二步,我們?cè)?strong>使用篇章級(jí)別的語(yǔ)料訓(xùn)練我們加入的模塊。在這一步,我們會(huì)凍結(jié)其他參數(shù),防止模型在較小規(guī)模的篇章級(jí)別語(yǔ)料上過(guò)擬合。?
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)(表 1)表明,我們的方法顯著好于 Transformer 和基于 RNNsearch 的篇章翻譯模型。
▲?表1. 實(shí)驗(yàn)結(jié)果
點(diǎn)擊以下標(biāo)題查看更多論文解讀:?
網(wǎng)絡(luò)表示學(xué)習(xí)綜述:一文理解Network Embedding
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)綜述
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
哈佛NLP組論文解讀:基于隱變量的注意力模型
ACL2018高分論文:混合高斯隱向量文法
COLING 2018最佳論文:序列標(biāo)注經(jīng)典模型復(fù)現(xiàn)
一文解析OpenAI最新流生成模型「Glow」
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 两行代码玩转 Google BERT 句
- 下一篇: 经典论文复现 | 基于标注策略的实体和关