论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
筆記整理:譚亦鳴, 東南大學博士生
來源:NAACL'21
鏈接:https://aclanthology.org/2021.naacl-main.465/
概述
為了擴展多語言知識圖譜問答的應用,Zero-shot方法成為一個研究趨勢。在Zero-shot的設定下,通過高資源語言的訓練數據構建模型,解決無標注的多語言問題。一個直觀的方法是使用多語言的預訓練模型(例如m-BERT)來做跨語言的轉換,但目前優勢語言與其他語言的問答性能之間仍然存在明顯的差異。在這篇論文中,作者提出了一種無監督雙語詞歸納方法(BLI)將優勢語言的問題(論文中的原語言)映射到其他語言上,作為擴展訓練集。從而解決訓練和推理之間的語言不一致問題。進一步的,通過一個對抗學習策略來解決擴展集存在的語法障礙問題,使得到的模型具有語言和語法的獨立性。在一個具有11種Zero-shot數據集上實驗驗證的該方法的有效性。
動機
對于多語言圖譜問答任務, 現有的benchmark廣泛使用了翻譯方法, 即利用機器翻譯將優勢語言資源的訓練數據翻譯為其他語言, 從而擴充為多語言訓練集. 但是這類方法嚴重依賴于翻譯方法的性能, 顯然高性能翻譯器并不是滿地都是.
為了使方法能夠適用于更多的語言, 作者假設這個任務場景里不具備人工譯者和平行語料的資源. 對應的, 為了解決訓練數據擴充, 作者引入了一個基于BLI的完全無監督機器翻譯方法. 作者判斷BLI方法有效的依據在于KGQA面對的往往是短句, 對于長距離依賴的影響不大, 而語言一致性能夠帶來更大收益.
為了緩解BLI引起的句法障礙問題, 作者使用了一個對抗學習策略, 即在編碼器頂層設置一個分類器用于區分輸入的是源語言句子還是BLI翻譯得到的句子, 通過這種做法使編碼器對于語言的敏感性減少, 從而適用于多語言任務.
方法
作者首先建立了一個面向單語問題的基礎框架, 包含三個主要模塊, 如圖1:
1.推理鏈排序: 對于鏈接到的問題實體, 首先找到其潛在的候選鏈(來自鏈接實體+兩跳之內的另據), 而后與將鏈與問題計算相關性, 取Top-1作為目標推理鏈2.類型約束排序: 對于1中給出的推理鏈, 枚舉出已知變量和lambda變量的類型候選,因為這兩個變量之間幾乎沒有黃金類型約束的重疊,一個的語義匹配模型對兩者都是足夠的,從而確定了推理鏈上的節點(變量)的類型.3.聚合分類器: 針對問題中涉及的聚合操作如: 布爾, 計數和事實, 構建分類器判斷聚合類型, 而后將聚合操作約束也添加到生成的查詢圖中
圖2是作者提出的基于BLI的多語言問題語義匹配模型.
首先, BLI方法實際上是通過找到一個線性轉換矩陣, 使得不同語言的預訓練單語詞向量之間差異最小, 即如公式6:
基于BLI作者建立了一個字對字翻譯器
考慮到圖譜問答主要是詞或短語級別的匹配, 通過字對字翻譯得到的序列可以滿足這個需要, 另一方面, 關于翻譯錯誤帶來的影響, 作者描述為, 直觀上, 他們的詞向量在空間上接近, 錯誤的詞級別翻譯可以視作微量的噪聲, 對于具備魯棒性的Transformer-based編碼器來說, 不會造成什么影響.
在多語言問答場景中, 基礎模型主要又以下一些變化:
1.推理鏈排序: 對于每個推理鏈, 通過三種方式豐富它的謂詞: a. 將camel表示的短語轉換為序列格式的詞; b. 增加或減少方向信息的前綴; c. 在局部封閉假設下鏈接高頻類型;2.類型約束排序: 待匹配的問題和符號候選通過[CLS],[SEP]的標記連接起來, 輸入預訓練編碼器后在經過Pool(.), 后者表示使用[CLS]的上下問來表示整個輸入. 這里的預訓練編碼器使用的是m-BERT
3.聚合分類器: 由多語言預訓練編碼器+MLP-based的預測層構成.
實驗:
數據集:
作者主要使用了兩個知識圖譜問答數據集:
LC-QuAD(單語) 包含5000個英語問題-SPARQL對, 其中1000用作測試集
QALD-multilingual(多語言), 包含12種語言, 429個問題全部作為測試集, 使用LC-QuAD作為訓練集.
實驗結果:
主要結果(評價指標為ICA與F1)
消融分析:
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 异构图 Transform
- 下一篇: 论文浅尝 | 基于对抗学习的弱监督知识图