论文浅尝 | 面向 cQA 的跨语言问题检索方法
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識庫問答。
來源:WWW2019
鏈接:https://dl.acm.org/citation.cfm?doid=3308558.3313502
???????????
????? 本文提出了一種面向cQA的跨語言問題檢索方法,旨在對于給定的問題檢索出其對應另一目標語言的相似問題或查詢。這個任務(跨語言信息檢索)的常規做法是:1.將給定問題翻譯為目標語言;2.應用單語信息檢索方法完成查詢。這種做法的缺陷在于翻譯可能存在錯誤,并傳遞到之后的檢索過程。針對這一缺陷,作者基于上述方法提出改進:1.利用單語cQA數據提升翻譯質量;2.在現有的神經信息檢索模型的訓練過程添加譯回機制(back-translation),提升模型的魯棒性。
?
貢獻???
??????? 本文貢獻包括以下幾點:
1.????研究了technical cQA上的跨語言問題檢索方法,并發現翻譯質量是嚴重影響檢索性能的因素
2.????評估cQA問題檢索中NMT領域適應性產生的影響
3.????基于現有的商用MT服務也可以達到較好的性能
?
方法
首先對任務進行一個描述:
給定一個輸入問題q0和規模為N的相關問題list Q=q1, q2,…,qN(來自cQA),目標是對list進行重排序,從而找到list中與q0最相關的問題qi。跨語言問題檢索的給定問題語言為德語(L1),list問題語言為英語(L2)。
整體的pipeline如圖1所示,給定問題q0首先由一個NMT神經翻譯模型轉換為L2語言,而后經過一個QR模型將翻譯后的給定問題q0和待對比問題qi轉換為向量表示,而后通過余弦相似度衡量兩者的相關性。
NMT模型
???? 本文使用Transformer實現給定問題的翻譯,作者使用WMT’13和WMT’18數據集訓練了英語-德語,德語-英語的翻譯模型,包含4.5M的英德technical topic平行語料。作為對比,作者引入了谷歌翻譯服務
QR模型
本文QR過程基于RCNN實現,該方法將循環單元(unit)與卷積網絡相融合,將輸入的問題q學習為一個修正維度的特征向量表示r,從而用于下一步的相似性計算。
目標函數方面,作者通過隨機產生負例,構建了聯合損失函數形式如下:
面向跨語言改進
基于合成平行語料的領域神經機器翻譯(In-Domain NMT)
??? 具體做法就是,首先利用當前數據訓練兩個方向的翻譯系統(英-德,德-英),而后將大規模領域單語數據(英語)翻譯為德語,從而得到更大規模的英德領域平行語料,用于德-英翻譯系統性能強化(即譯回方法,back-translation)。由于這里的單語數據是本文任務需要的目標語言(英語),即生成的平行語料中即使存在錯誤也不在于目標語言句子中。因此在譯文生成方面,并不會嚴重影響輸出譯文的語法錯誤或不通順。
??????? 作者舉了一些例子在表1
? 在 QR 過程中,back-translation 則用于生成多種問題的復述形式(paraphrase),從而擴充問題自然語言表達的多樣性(當然也存在翻譯錯誤,尤其基于少量數據訓練得到的Transformer翻譯系統存在大量的噪聲,所以這里作者依賴于翻譯性能更好的谷歌翻譯服務來完成)。
???????????
實驗
數據集
??????? 表2列舉了本文問答實驗數據集的一些統計信息,均來自technical領域。
模型與Baseline與實驗結果
作者將實驗分為了單語和跨語言兩組,單語方面主要對比了QR模型(RCNN,RCNN-A)在添加back-translation數據調優之后的性能變化。雙語方面在此基礎上則增加了直接使用谷歌翻譯與自主訓練Transformer模型之間的性能對比。
????? 作者也給出了一些實例進行對比,如表4,5所示:
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向 cQA 的跨语言问题检索方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:分布式、集群、负载均衡
- 下一篇: 论文浅尝 | 基于知识库的自然语言理解