论文浅尝 | 基于时序知识图谱的问答
筆記整理:姚云志,浙江大學在讀博士,研究方向為自然語言處理。
鏈接:https://arxiv.org/pdf/2106.01515.pdf
時序知識圖譜是一種多關系的知識圖譜,相較于常規的知識圖譜,時序知識圖譜中的關系中會與時間段相關聯,譬如在常規的知識圖譜中存在著(Barack Obama, held position, President of USA)這樣的三元組關系,而在時序知識圖譜中,則會同時包含這段關系存在的時間,(Barack Obama, held position, President of USA, 2008, 2016)。
知識圖譜問答任務(KGQA)的任務是使用KG作為知識庫回答自然語言問題,問題的答案通常是KG中的一個實體(節點),回答問題所需的推理是基于單個事實、多跳或基于連接/比較的推理。基于時序圖譜的問答任務(Temporal KGQA)則具備了以下更多的特點:
1.知識庫是一個時序知識圖譜。2.答案是實體或持續的時間。3.需要復雜的時間推理。
然而,目前關于時序知識圖譜問答任務的數據集的研究非常少,從圖1中,我們可以看到大部分的KGQA數據集中,知識圖譜都不包含時序的關系,數據集中的問題也很少關注時間,TempQuestions數據集關注時序問答的問題,但數據量很少,僅僅用于對模型的測試。
圖1
為此,作者在這篇工作中提出了一個新的Temporal KGQA的數據集----CRONQUESTIONS。在構建數據集時,作者遵循了以下三個原則,1.相關KG必須提供時間標注。2.問題必須涉及時間因素推理。3.標記實例的數量必須很大,足以用于訓練模型。基于此,作者最終推出了包含125k個實體和328k個事實的時序知識圖譜和410k個需要進行時間推理的自然語言問題。作者驗證了語言模型T5,BERT,KnowBERT以及LM+KG的模型Entities-as-Experts 和 EmbedKGQA的實驗結果,在數據集上的表現并不令人滿意。作者提出了CRONKGQA模型,在任務中取得了不錯的結果。
1.數據集的構建
CRONQUESTIONS包含兩個部分:包含時間標注的知識圖譜和需要時間推理的問答集。在構建知識圖譜時,作者首先從WikiData中選取了包含時間標注的關系,并剔除了占比超過50%的關系的部分數據用以平衡數據分布。與此同時,為了避免圖譜丟失一些重要的事件信息,作者從WikiData中抽取了重要的包含起始時間的實體,并將這些實體信息添加到了知識圖譜中,例如World War II, 作者添加了以下格式(WWII, significant event, occurred, 1939, 1945)的事實。在構建問答數據集時,作者基于出現次數最多的關系構建了一系列的問題模板(圖2)。基于這些模板,在人工改寫的問題基礎上,同時使用了模型去生成更多的問題,最終構建了410k的數據。
圖2. 部分問題模板的樣例
圖3. 人工和機器改寫的問題
圖4. 數據統計
2. CRONKGQA
作者提出了CRONKGQA用來解決時間預測問題,作者首先使用EmbedKGQA作為開始的模型實現,由于EmbedKGQA使用ComplEx作為知識圖譜嵌入的方法,并不能夠處理包含時間的信息,于是作者在這里采用了TComplEx來獲取實體和時間戳的embedding。從圖4中,我們可以看到,CRONKGQA使用了兩個預測函數獲得了問題的實體嵌入和時間嵌入?? ,?? 。而后分別計算在實體級別和時間級別的得分:
最后通過softmax來預測最終的答案。
3.實驗結果
作者比較了CRONKGQA和其他主流模型在任務上的表現,可以看到,CRONEKGQA在任務上取得了非常好的結果,超過了EaE等LM+KG的模型。
作者同時也比較了訓練數據集大小對模型結果的影響。我們可以看到除了CRONKGQA在簡單的推理數據上的表現,隨著訓練集的增大,模型的效果會更好,這驗證了作者之前的假設:擁有一個大的(即使是合成的)數據集對于訓練時態推理模型非常有用。
歡迎有興趣的同學閱讀原文。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于时序知识图谱的问答的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - AAAI2020 | 小样
- 下一篇: 论文浅尝 \ 联合知识图谱实例和本体概念