论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全
筆記整理 | 譚亦鳴,東南大學博士生
概述
預測圖譜中缺失的事實(fact)是知識圖譜構建與推理中的一個重要任務,近年來也被許多KG embedding研究的關注對象。雖然目前的KG embedding方法主要學習和預測的是單個圖譜中的事實,但是考慮到KG之間不同規模,不同質量和覆蓋面的差異,一個更加合理的解決方案是將其應用于多語言知識上。由于知識在不同KG之間的傳遞往往收到描述不一致和對齊信息缺失的問題,因此(多語言知識圖譜上的補全)這是一個具有挑戰性的任務。本文提出了KEnS,一個新的框架,可以用于embedding學習以及在多個特定語言KG上集成知識并相互轉換。KEnS將所有的KG embed進一個共享空間,通過self-learning捕獲關聯實體,之后執行集成推理從而將多語言KG embedding上的預測結果聯合起來。作者探究了多種聯合的模式,在五個真實多語言KG上的實驗表明,通過有效識別和利用補充的知識,KEnS在補全任務上進一步提升了SOTA方法的性能。
方法
圖1描述了KEnS的集成推理過程,該模型首先聯合多語言KG embedding模型的預測結果,然后從那些結果中找出可能性最大的答案,從而提升圖譜補全的性能。KEnS包括兩個主要過程:1. Embedding學習;2. 集成推理。前者將每個KG的實體和關系編碼進一個共享的embedding空間(類似于對齊模型的做法),這使得模型支持跨不同KG的查詢。集成推理過程聯合來自不同KG的預測結果,并且為了進一步提高每個KG上預測的可靠性,作者引入了一種增強方法來學習知識模型的實體特定權重。
下面分別對KG embedding及集成推理的細節進行說明:
在embedding方面,包含知識模型與對齊模型兩個部分,其中知識模型的學習目標可以通過公式1表示:
其中[·]+=max(·, 0),f是一個三元組打分函數,越高的得分表明該三元組描述的事實越可靠,是一個超參數,則表示通過隨機替換生成的的負例,在f函數方面,作者考慮了TransE以及RotatE兩種方式:
在對齊模型方面,其學習目標如公式4(通過訓練使對齊實體之間的向量距離盡可能小):
兩者整合的目標函數為:
集成推理部分,首先KEnS通過對齊模型預測多語言圖譜之間的實體對齊,基于對齊實體,將query轉換到其他KG上,獲取結果之后再通過對齊轉換回初始KG,接著對于獲取的候選結果,利用公式6對其進行加權:
其中,e表示目標KG上的一個實體,wi(e)表示一個實體特定模型權重,當e在KGi的embedding模型fi上排在Top-K, 則Ni(e)為1,否則Ni(e)為0。這里在w的計算上,作者構建了三種變體,其一是利用boosting方法對每個實體學習特定權重,其二是對所有實體和embedding模型修正權重為1,其三則是使用embedding模型f在驗證集上的mean reciprocal rank(MRR)作為權重。
實驗
數據方面,由于目前還沒有一個面向多語言補全的數據集,因此他們收集了一個涵蓋英語,法語,西班牙語,日語以及希臘語等語言的DBpedia子集,并命名為DBP-5L,其上的預測結果如標2所示:
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于未知谓词与实体类型知识
- 下一篇: 论文浅尝 | 用于嵌套命名实体识别的二部