论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型
論文筆記整理:陳想,浙江大學博士,研究方向為自然語言處理,知識圖譜。
Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
來源:ICLR2020
鏈接:https://arxiv.org/abs/1912.09637
Motivation
近年來在大規(guī)模數(shù)據(jù)集上預訓練的的語言模型(以BERT和XLNET為代表)在多項NLP任務上達到SOTA水平。研究發(fā)現(xiàn)預訓練,過程可以使模型學到語言的語法和語義信息并遷移至下游任務。有趣的是,經(jīng)過預訓練的模型在需要基礎語言和對現(xiàn)實世界進行推理的任務上也能獲得較好的效果。
但是,現(xiàn)有的預訓練目標通常是在token級別定義的,并沒有明確的以實體為中心的知識建模。在本文中,作者調(diào)查了是否可以進一步實施預訓練模型,以專注于現(xiàn)實世界實體的百科知識,以便它們可以更好地從自然語言中捕獲實體信息,并應用于改進與實體相關的NLP任務。
與此同時,目前的預訓練語言模型通常專注于基于最大似然估計(MLE)的Masked Language Model(MLM)作為目標任務,即采用的“生成式模型”。然而MLM的損失計算都是基于token-level的,對于高層次的抽象理解較難學習到。
因此本文提出了嘗試將判別式的對比學習目標函數(shù)作為NLP預訓練的目標,具體的,采用Replaced Entity Detection(RED),基于維基百科用相同類型的其他實體的名稱替換原始文檔中的實體提及,訓練模型區(qū)分正確的實體提及和隨機選擇的其他實體提及以設法讓模型能夠理解entity-level的特征。相比先前的工作采用的利用外部知識庫獲取實體知識的方法,該方法能夠直接從非結構化文本中獲取真實世界的知識。
Model/Methods
(1)數(shù)據(jù)準備
使用英文維基百科作為訓練數(shù)據(jù),文檔中的實體根據(jù)維基百科中的錨鏈接和Wikidata(三元組知識庫)的實體名來識別。即首先檢索由錨鏈接注釋的實體,然后通過字符串匹配它們在Wikidata中的名稱,以檢索其他提到這些實體的地方。通過此方法可以使用現(xiàn)成的實體鏈接工具,很容易擴展至其他語料庫
(2)替換策略
如圖1所示,進行實體替換時首先需通過Wikidata知識庫確定其實體類型,并隨機選取該實體類型下的其他實體替換原實體,每個實體會通過同樣的方式進行10次替換,生成10個不同的負例。相鄰實體不會被同時替換,以避免多個連續(xù)的負例組成了符合事實的描述。
(3)訓練目標
對于在上下文C中提到的某個實體e,我們訓練模型進行二進制預測,以指示該實體是否已被替換:
Experiments
本文在事實補全、四個與實體相關的問題回答數(shù)據(jù)集(WebQuestions,TriviaQA,SearchQA和QuasarT)和一個標準的細粒度實體類型數(shù)據(jù)集設置了實驗。實驗及結果介紹如下:
(1)事實補全任務
基于Wikidata中的事實三元組,篩選了10種重要關系,人工構建三元組的自然語言表述,以此訓練模型進行實體補全。本文對每種關系構建了1000例數(shù)據(jù),對比了使用生成式語言模型目標進行預訓練的原始BERT和GPT-2,使用傳統(tǒng)三元組補全任務的評估指標hits@10進行評估,結果如下:
(2)QA
本文在4個基于實體答案的開放領域問答數(shù)據(jù)集上進行了微調(diào)實驗,如表4所示,WKLM在3個QA任務上達到了SOTA,說明了基于實體替換的判別式對比學習的有效性。
(3)實體類型判別
該任務的目標是從自然語言句子中發(fā)現(xiàn)所提到的實體的細粒度類型信息,模型在遠程監(jiān)督訓練數(shù)據(jù)上進行了最小化二元交叉熵損失的訓練
(4)消融研究
該部分主要驗證本文提出的實體替換目標函數(shù)相對于原始BERT的效果有明顯提升,以及不同程度上搭配BERT原始的MLM loss對應的效果。
結果表明提出的實體替換目標有效提高了模型在QA和實體類型判別任務上????? 的性能,而對于遮蔽語言模型任務,過高或過低的遮蔽比例均會不同程度上????? 損害模在QA任務上的表現(xiàn)。
Conclusion
本文提出將判別式的對比學習目標函數(shù)作為NLP預訓練目標,通過完善的實驗證明了這一訓練范式的有效性和可行性,即對于更注重實體相關信息的NLP任務,采取本文提出的對比式實體替換目標進行預訓練優(yōu)于生成式的遮蔽語言模型預訓練。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | KG Embedding
- 下一篇: 论文浅尝 - WSDM20 | 基于弱监