论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识
筆記整理:譚亦鳴,東南大學博士生
來源:EACL‘21
鏈接:https://aclanthology.org/2021.eacl-main.284.pdf
概述
本文關注將語言模型(LM)視作一個知識庫,然后用于解決例如句子填空這樣的NLP任務,這個做法在單語言(英語)取得了不錯的效果。因此在這篇論文里,作者著重關注了以m-BERT為代表的多語言語言模型是否也能作為多語言KG適用于多語言NLP場景。他將單語LAMA數據集翻譯為53種語言,并使用m-BERT作為知識庫進行了實驗評估,著重關注了m-BERT的可用性,和在不同語言上的性能差異性。從實驗效果來看,首先m-BERT在部分語言上能夠實現和單語LAMA實驗類似的效果,另一方面,m-BERT雖然基于104weikipedia訓練得到,但是依然存在語言偏置
背景與動機
單語上,使用預訓練模型作為知識庫(不做微調的情況下)來完成一些自然語言處理任務例如簡單的文本生成,模板填空等,已經被證明是有效的。既然LAMA在英語但遇上已經取得了許多研究進展,作者對多語言預訓練模型上是否也同樣有效產生好奇,論文主要圍繞三個問題進行展開:
1.M-BERT是否也能被當作一個多語言知識庫來使用,這對于方法發展的多樣性和可用性非常重要2.M-BERT作為知識庫是否在不同語言上有性能差異,或者它不受語言不同的影響3.M-BERT相比單語模型包含了更多語言(104種)的訓練數據,這些是否會在性能上帶來額外的影響
貢獻
作者總結論文的主要貢獻如下:
1.論文建立了一個多語言版本(覆蓋53種語言)的TREx以及GooleRE2.提出了一種“實體類型+模板”的模式替換傳統“挖空查詢”,并證明它具有更好的效果3.實驗論證了M-BERT在不同語言上回答查詢的性能差別明顯4.論文論證了M-BERT作為知識庫應用時存在語言偏向,例如當查詢由意大利語構成,那么查詢得到的實體往往也是意大利語的5.跨語言池化預測能夠大幅提升實驗性能,甚至優于英語單語BERT
數據
作者沿用了LAMA的做法,也使用了TREx以及GoogleRE這兩個數據集,兩者都是由三元組構成。LAMA的思路是使用模板直接在預訓練模型種查詢三元組的內容,例如對于三元組(巴黎,首都,法國),查詢模板為:巴黎是___的首都。
TREx涵蓋34,039個三元組,涉及41種關系類型,GoogleRE則包含5528三元組以及3種關系,每個關系對應的模板都是由人工制作的。
在LAMA的基礎上,作者使用谷歌翻譯將其模板翻譯為其他語言,通過確定模板插槽是否被準確保留來驗證翻譯的準確性,并在必要的部分進行后處理修正。
M-BERT支持104種語言,谷歌翻譯覆蓋了其中的77種,維基百科和谷歌知識圖譜都沒有支持所有語言的實體翻譯,并且也不是所有實體都被包含在知識圖譜中。對于英語,作者找到共計37,498個三元組。平均下來,34%的三元組可以被翻譯。最終構建得到mLAMA,其統計信息如圖1。
實驗
作者在實驗中驗證了兩種查詢構建模式:
1.沿用Petroni等人的做法,使用帶有插槽的模板例如:巴黎是___的首都2.增加對于插槽實體的類型約束,從而解決部分歧義問題例如:湯姆出生在_____,插槽處即可能是地點,也可能是年份,添加類型約束解決了這個問題。
對于插槽本身,作者分析了兩種情況:
1.限定插槽為單個token,反應在模板上就是 “湯姆出生在[_____]”2.設置插槽為多個token,即 “湯姆出生在[__][_]” 多個插槽的情況下,生成過程可以描述為連續的條件概率如下:
其中,e是實體,t是構成e的token序列
主要實驗結果:
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 完备的娱乐行业知识图谱库如
- 下一篇: 论文浅尝 | HEAD-QA: 一个面向