论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架
筆記整理 | 譚亦鳴,東南大學(xué)博士
來源:? ACL 2020
鏈接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf
資源:https://github.com/bernhard2202/intkb.
概述
知識庫作為許多下游NLP任務(wù)的資源基礎(chǔ),存在的一個普遍缺陷是它的不完整性。目前最好的知識庫補全框架則缺乏足夠的準確性,無法在脫離人工監(jiān)督的情況下完全自動化的完成知識補全。因此,作為彌補方案,本文提出了IntKB,一種基于問答pipeline的交互式圖譜補全框架。該框架的設(shè)計面向“人在回路”范式的特性需求:i. 該系統(tǒng)生成的事實與文本片段一致,可由人類直接驗證。ii. 該系統(tǒng)設(shè)計為可在知識庫補全過程中不斷學(xué)習(xí),因此能夠使zero-或者few-shot的初始狀態(tài)隨著時間推移而顯著提升性能。iii. 當(dāng)且僅當(dāng)存在足夠信息進行正確預(yù)測的情況下,才會出發(fā)與人的交互。因此,作者采用負例和無答案的fold-option來訓(xùn)練系統(tǒng)。該框架在實驗中取得較好的性能:對于初始狀態(tài)下的未見關(guān)系,它實現(xiàn)了29.7%的Hits@1,并且在此基礎(chǔ)上,這個結(jié)果逐漸提高到46.2%。
方法
圖1描述了本文所提方法的大致框架,主要包含三個過程:
1.Sentence selection:句子篩選模塊的輸入是一個不完整的三元組形如[h, r, _](同指查詢),針對這個輸入,返回一個經(jīng)過排序的候選句子集(即可能涵蓋尾實體(答案)的文本)。在這里,用于檢索的文檔被約束為與頭實體h相關(guān)的文檔子集,接著作者為每個句子建立基于tf-idf的向量表示(這里只考慮上述文檔子集的idf而不是整個文檔)。對于查詢向量,論文使用關(guān)系類型的semantic names,并將每個關(guān)系類型轉(zhuǎn)換為對應(yīng)的tf-idf向量,而后計算每個句子和查詢之間的相似性得分。該結(jié)果用于步驟2中的關(guān)系抽取。
2.Relation extraction: 關(guān)系抽取模型的輸入是上一步中排序Top-n的句子,以及原始查詢[h, r, _],每條句子都被轉(zhuǎn)換成一條查詢,而后輸入BERT-QA模型,用于返回作為候選答案的文本區(qū)間。之后,作者將關(guān)系抽取視作閱讀理解的一個特例(即“問”未知的尾實體),不同于過去需要構(gòu)建問題模板的方式,這里通過關(guān)系類型的semantic names構(gòu)建多個噪聲關(guān)鍵詞查詢。因此,本文的知識庫補全工作是在數(shù)據(jù)缺少的情況下進行的,且只使用知識庫中的信息無需額外的人工監(jiān)督。
3.Answer re-ranking:從BERT-QA獲取到若干候選答案之后,最后一步就是對它們進行重排序。排序前,作者首先匯總所有具有匹配文本的候選答案,例如預(yù)測中多次出現(xiàn)了某個關(guān)鍵詞,則合并這些候選答案為一個。而后使用前兩步得到的候選答案的特征信息做排序(使用Kratzwald et al., 2019提出的方法),最終,得到對于[h, r, _]的預(yù)測候選。
面向知識庫補全的Continuous Learning
1.冷啟動
作者建議使用以下三步對框架進行初始化,首先是事實對齊,使用遠程監(jiān)督的方式將初始知識庫中的事實與文本語料中的句子進行對齊,其次是對數(shù)據(jù)集中不存在的事實生成負例訓(xùn)練樣本,再者,知識轉(zhuǎn)移,通過訓(xùn)練將負樣本和對齊的事實反饋到問答pipeline中。
2.基于用戶反饋的持續(xù)提升
由于對訓(xùn)練中未見關(guān)系類型的預(yù)測是很困難的,因此這里作者通過交互機制,在標注過程中動態(tài)生成關(guān)于zero-shot關(guān)系的訓(xùn)練數(shù)據(jù),所有用戶正反饋的事實都會立刻添加到知識庫中。
實驗
本文針對其框架機制,構(gòu)建了一個數(shù)據(jù)集,包括一個不完整知識庫,一個文本語料(都是來自Wikidata的子集),知識庫中的關(guān)系被分為已知關(guān)系(訓(xùn)練可見),和未知關(guān)系(訓(xùn)練中看不見,zero-shot)等兩類。作者首先評估了模型在可見知識子集上的性能,而后評估了zero-shot子集上的性能,論文構(gòu)建了兩套baseline,分別為BERT-Sentence 與Na¨?ve QA pipeline,實驗結(jié)果如以下兩張表所示
:
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICLR 2020 | 用
- 下一篇: 开源开放 | 中文相对复杂词汇识别数据集