CL-ReLKT: Cross-lingual Language Knowledge Transfer for MultilingualRetrieval Question Answering论文阅读
CL-ReLKT: Cross-lingual Language Knowledge Transfer for Multilingual
Retrieval Question Answering
摘要:
跨語言檢索問答(CL-REQA)涉及檢索用不同語言編寫的問題的答案文檔或段落。CL-REQA的一種常見方法是創建一個多語言句子嵌入空間,使不同語言的問答對彼此接近。在本文中,我們提出了一種新的CL-REQA方法,該方法利用語言知識遷移的概念和一種新的跨語言一致性訓練技術來為REQA創建多語言嵌入空間。為了評估我們工作的有效性,我們對CL-REQA和下游的機器閱讀QA進行了全面的實驗。我們在三個公共CL-REQA語料庫上將我們提出的方法與當前最先進的解決方案進行了比較。在CL-REQA的21個設置中,我們的方法在19個設置上優于競爭對手。當與下游機器閱讀問答任務一起使用時,我們的方法在F1中的性能比現有最好的基于語言模型的方法高出10%,而在句子嵌入計算上則快了10倍。代碼和模型可在https://github.com/mrpeerat/CL-ReLKT上查閱。
1 介紹
跨語言問答允許使用另一種語言編寫的材料回答用一種語言提出的問題。如圖1所示,人們可能會問:“誰是洪薩瓦底的第一位國王?”他們的答案可以從緬甸語或其他語言的歷史文獻中找到。為了支持給定的示例應用程序,我們需要一個能夠同時處理多種語言的文檔和問題的檢索系統。也就是說,我們希望將多種語言的問題和答案映射到同一個空間,以便于檢索。該功能也稱為跨語言檢索問答(CL-REQA)
1.1 現有方法
CL-ReQA的一個突出方法是多語言句子嵌入,即創建一個可以處理不同語言的問題和答案的嵌入空間。這種方法可以進一步分為:
(1)LM-Based: finetuning a language model (LM),比如 mBERT and XLM-R;
Devlin等人(2019)和Conneau等人(2020)分別提出了一種具有多種語言(100多種語言)的預訓練大規模語言模型,稱為mBERT和XLM-R。這兩種解決方案都依賴于將LM部分微調到目標任務。Reimers和Gurevych(2020)在使用雙語文本挖掘任務進行微調后,準確性從11.6%提高到88.6%。許多最近的工作已經探索了微調LMs,例如,各種監督學習任務的三重態丟失(Reimers和Gurevych,2019),知識提取(Reimer和Gurevych,2020),密集網絡QA編碼器(Karpukhin等人,2020),以及為翻譯任務提供初始單詞嵌入(Feng等人,2020)。盡管如此,微調這些模型需要大量的訓練樣本(在某些情況下超過100000個句子(Reimers和Gurevych,2020;Zhang等人,2021;Wang等人,2021))才能在多語言環境中提供最佳性能。另一方面,跨語言QA訓練語料庫通常較小,每種語言只有1000到1500個問題。我們需要一種可以在有限數據量下操作的方法。
(2)USE-Based: finetuning the Universal Sentence Encoder (USE) for QA
Universal Sentence Encoder(通用句子編碼器)
?基于通用句子編碼器(USE)架構(Cer等人,2018),楊等人(2020)提出了一種利用具有16種不同語言和多個訓練目標的多語言語料庫的訓練方法。他們稱他們的預訓練網絡為多語言使用或mUSE。Trijakwanich等人(2021)的實驗結果表明,mUSE的性能優于基于LM的方法。然而,該方法在mUSE訓練語料庫之外的語言(即不支持的語言)上表現不佳。這種限制阻礙了在有限資源語言上采用mUSE。
1.2 我們的工作
提出的方法
在本文中,我們的目標是提高適用于多種語言(包括訓練數據量有限的語言)的多語言句子嵌入的魯棒性。利用語言知識轉移的普遍性,我們提出了一個跨語言檢索語言知識轉移框架。圖1說明了如何通過多語言嵌入函數h()進行跨語言檢索。給定任何語言中的問題文檔對(q,d),與使用任何相似性度量(例如,余弦相似性)的任何其他文檔相比,h(d)更接近h(q)。
學習的目標
如圖2所示,提出的CL-ReLKT框架旨在通過使跨語言問答對彼此更接近來改善嵌入空間。我們提出的框架的關鍵在于以下兩個部分。首先,我們制定了一個LKT(語言知識轉移)過程來創建語言泛化學生。特別是,我們利用了這樣一個事實,即在一個大型多語言語料庫中可能有一種語言主導著所有其他語言。我們使用該語言來幫助提高其他語言的嵌入質量。其次,我們提出了一種新的損失函數,旨在提高多語言環境中問答對之間的跨語言一致性。我們旨在提高教師(主導語言)和學生(其他語言)在以下教師-學生輸出對中的一致性:問題-問題、文檔-文檔和文檔-問題。
實驗研究
為了確定我們方法的有效性,我們在15種語言的三個數據集上比較了擬議方法與當前最佳實踐(在第1.1節中討論)。實驗結果表明,在所有情況下,CL-ReLKT框架在mUSE支持的語言上都優于所有競爭方法。在不支持的語言(即mUSE訓練語料庫之外的語言)上的結果表明,CL-ReLKT框架在所有情況下都顯著提高了mUSE編碼器的性能(p<0.05)。此外,在機器閱讀QA(MR-QA)的下游任務中,我們的方法在八分之七的情況下獲得了比現有最好的基于LM的方法更好的F1和精確匹配分數。最后但并非最不重要的是,我們的方法在句子嵌入計算成本方面也比最先進的基于LM的競爭對手快10倍。
論文貢獻
(1)我們提出了一種新的語言知識轉移方法,稱為跨語言檢索語言知識轉移(CL ReLKT),將知識從主導語言轉移到非主導語言,并構建語言通用編碼器。
(2)我們設計了一個新的損失函數,以加強主導和非主導語言向量表示之間的跨語言一致性。
(3)為了評估模型的性能和效率,我們進行了一系列廣泛的實驗研究,涉及2個任務、15種語言和8個競爭對手。實驗結果表明了我們提出的CL-ReLKT框架的優點。此外,我們發現在文檔級檢索答案比通道級方法有顯著改進。
2 背景
2.1 主導語言
在多語言數據集中,語言的分布往往不平衡。如圖3所示,英語句子數量約占語料庫中用于構建mUSE的所有句子的50%(楊等人,2020年)。
由于所述語言不平衡,具有大量數據的語言中的模型性能往往大大優于其他語言(Arivazhagan等人,2019;Wang等人,2020)。當我們希望模型性能在多種語言之間保持一致時,這個問題可能會有問題。
對于mUSE,如圖3所示,我們可以看到,就可用的訓練數據而言,英語是主導語言。因此,英語-英語檢索性能往往優于所有其他語言對。為了驗證這一性能差距,我們使用非英語提問和英語回答文檔進行了CL-ReQA實驗研究;mUSE用于對問題和文件進行編碼。實驗結果表明,當將問題翻譯成英語而不是使用原始的非英語問題時,即將問題從俄語翻譯成英語時,性能顯著提高,將at-1的精度從43.3%提高到52.8%。完整結果見附錄A.3。
2.2 語言知識轉移
有許多技術可以使用從豐富資源語言獲得的結構來提高低資源語言上的模型性能。遷移和多任務學習是利用豐富資源語言的流行范例。這些方法通常依賴于共享編碼器策略,以便使用同一模型在所有其他語言中共享用一種語言學習的語言模式(Lin等人,2019;Nooralahzadeh等人,2020;Zoph等人,2016;Schwenk和Douze,2017;Neubig和Hu,2018;Yang等人,2020年;Feng等人,2020)。這類技術通常被稱為語言知識轉移(LKT)。通過共享編碼器,對一種語言的改進往往也有利于其他語言。讓我們考慮一個場景,其中英語中有大量問答對,而其他語言(例如俄語、法語和德語)中的問答對數量要少得多。通過在使用英語數據進行訓練時更新編碼器權重,讓其他語言共享相同的編碼器,我們還可以提高模型在其他語言中的一般編碼性能。
3 提出的方法
在本節中,我們利用前一節討論的兩個概念,即主導語言和語言知識轉移,制定了我們提出的方法。特別是,我們進行語言知識轉移,將知識從主導語言轉移到其他語言。我們提出的方法包括兩個階段:教師模型準備和跨語言檢索語言知識轉移(CL-ReLKT),具體描述如下。
3.3 第一階段:教師模型準備
這一階段的目的是為下一階段的語言知識轉移創造一個強有力的教師。對于基本模型,出于效率和性能考慮,我們使用mUSEsmall.
有幾種技術可以用來創建教師模型mUSEteacher,我們的消融研究表明,triplet loss是一個合理的選擇。如等式一所示,triplet loss Ltp是一個訓練目標,該目標最大化錨正對(anchor-positive)(a,p)之間的余弦相似性cos(·),并使錨負對(anchor-negative)(a,n)之間的相似性小于所有訓練數據M的給定閾值α.
雖然錨a可以從問題中隨機抽樣,但我們需要CL-ReQA模型來幫助選擇正p和負n。對于負樣本分類,我們考慮兩種選擇。首先,我們可以直接使用原始mUSEsmall模型根據當前嵌入空間(online fishion)對負樣本進行分類(Kaya和Bilge,2019)。其次,我們可以應用Karpukhin等人(2020)提出的方法,該方法利用BM25(Trotman等人,2014)來生成文本相似性分數。根據附錄A.5.1中給出的消融研究,結果表明,前三個階段在進行五個階段的在線挖掘(Kaya和Bilge,2019)之前使用了三重挖掘的初始策略(Kaya and Bilge),產生了最佳性能。
3.2 第二階段:CL-ReLKT
現在,我們描述了使用語言知識轉移(LKT)的概念來提高一般CL-ReQA性能的方法。正如我們在第2.2節中提到的,LKT是一種技術,使用同一種模型,在一種語言中學習的語言模式可以在所有其他語言中共享。將相同的概念應用到我們的問題中,我們可以設置LKT過程來提高主語言和其他語言之間的嵌入一致性。特別是,我們將LKT環境設置為:
(i)教師使用主導語言,即英語;
(ii)該學生使用非主導語言;
(iii)學生試圖模仿教師的嵌入輸出。
在下文中,我們描述了教師和學生模型、輸入以及培訓過程的損失函數。
教師和學生模型
如圖4所示,跨語言檢索語言知識轉移(CL ReLKT)過程由教師、學生和損失函數組成。最初,將學生的參數初始化為與第1階段培訓的教師相同的值。在培訓過程中,教師的參數是固定的;我們只根據損失函數調整學生的參數。
輸入
現在讓我們考慮一下培訓過程的輸入問題和答案文檔。如圖4所示,教師和學生模型都接受相同的文檔輸入d。然而,每個問題有兩個不同的版本,英語和非英語。英語問題是原文的翻譯。這為我們提供了一個問題對(,),用于不同語言之間的語言知識轉移。為了簡單起見,我們使用谷歌神經機器翻譯(GNMT)將翻譯成。注意,如果可用,也可以使用人工翻譯的平行問題。
教師模型T()接受作為輸入,而學生模型S()接受作為輸入。換言之,作為LKT過程的“參考”。根據我們的評估(附錄A.5.3),英語表現最好,因此被選為培訓過程的主導語言。注意,這一發現也符合圖3所示的數據分布
損失函數
??? 我們的CL ReLKT損失函數的目標是讓學生模仿教師的知識,從主導語言到學生的目標語言。如圖5所示,我們的損失函數有三個一致性目標,即question-question, document-document, and document-question.。我們將其描述如下:
①目標一:question-question. 第一個目標是在分別編碼用英和非英語表達的相同問題時,加強S()和T()之間的一致性。
②目標二:document-document. 在為第一個目標調整student S()的同時,我們還希望保持其答案文檔編碼不變。因此,我們希望保持T(d)和S(d)之間的一致性。
③目標三:document-question. 為了適應查找過程,嵌入空間還應保持問答對彼此一致。作為我們的第三個目標,我們最小化學生問題向量S()和教師文檔向量T(d)之間的差異。
我們將損失函數表示為這三個一致性目標的線性組合。使用平方L2范數作為差異度量,我們得到以下損失函數:
M是給定批次中使用的訓練樣本集,β、λ和ω是加權系數。
討論
如前所述,損失函數的目標是將教師的知識傳遞給使用目標語言的學生。由于教師主導語言的表現是廣義的,在LKT過程之后,其他語言將具有相同的屬性。實驗結果表明,與教師模型相比,學生可以更好地處理不支持的語言,并提高支持語言的性能。這種改進來自損失函數中的跨語言一致性目標Obj1和Obj3,而Obj2保持了單語一致性。此外,不要求教師和學生模型具有相同的架構;它可以應用于任何預訓練模型。(有關更多信息,請參閱附錄A.4)
實驗
1、實驗證明基于文檔的答案檢索單元的Mashine Reading QA(MR-QA) (即檢索結果是文檔)比基于段落的效果更好,故在其他的嵌入實驗中使用該設置。
2、在我們模型支持的語言(支持的語言,即訓練數據中包含的語言)上進行跨語言檢索問答?? (CL-ReQA)。我們提出的模型和比基礎模型有顯著改進。此外,我們的模型也優于最大的預先訓練的mUSE變體。我們提出的所有模型也明顯優于基于LM的競爭對手。結果還表明,我們的一致性增強方法CL-ReLKT在除AR語言外的所有情況下對MLQA數據集都是有效的。
3、在不支持的語言上進行跨語言檢索問答(CL-ReQA)。和之間的性能差距證明了所提出的CL-ReLKT框架的有效性。我們可以使用CL-ReLKT來生成基本語句嵌入模型,以處理最初未包含在訓練過程中的語言。CL-ReLKT在印地語上表現不佳是因為:印地語是唯一在原始訓練數據中沒有表示其家族的語言。
總結
以上是生活随笔為你收集整理的CL-ReLKT: Cross-lingual Language Knowledge Transfer for MultilingualRetrieval Question Answering论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java.sql.SQLNonTrans
- 下一篇: 《introduction to inf