论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法
來源: IJCAI 2018
鏈接: https://www.ijcai.org/proceedings/2018/0611.pdf
?
本文關注基于知識圖譜嵌入(后文全部簡稱為知識嵌入)的實體對齊工作,針對知識嵌入訓練數據有限這一情況,作者提出一種 bootstrapping 策略,迭代標注出可能的實體對齊,生成新數據加入知識嵌入模型的訓練中。但是,當模型生產了錯誤的實體對齊時,這種錯誤將會隨著迭代次數的增加而累積的越來越多。為了控制錯誤累積,作者設計了一種對齊樣本編輯方法,對每次迭代生成的對齊數據加以約束。
?
動機
目前面向知識庫的實體對齊研究中,基于知識嵌入的方法取得了比傳統策略更好的實驗效果。但是對于知識嵌入的實體對齊,仍然存在著一些挑戰。
其一:雖然近年單知識庫知識嵌入研究成果頗豐,但面向知識對齊的嵌入工作仍有很多待研究的空間。
其二:基于知識嵌入的實體對齊往往依賴已有對齊作為訓練數據,雖然有研究表示僅需少量對齊樣本即可完成模型訓練[Chen et al. 2017],但有限的訓練數據依然會影響知識嵌入的質量以及實體對齊準確性。
?
方法
1.對齊引導的知識嵌入
作者將實體對齊視為分類問題,目標就是從基于知識嵌入的實體表示中(包括有標注對齊實體,及無標注實體),找到最有可能的實體對齊(最大對齊似然)。
對于知識嵌入,在translation-based的基礎上,針對對齊問題,作者對目標函數做出如下改進:
由基本知識嵌入目標函數
引入正負例樣本集T+與T-,將目標函數改寫為:
其中[ f(x) ]+表示max(f(x), 0),gamma_1, gamma_2 >0是兩個超參,mu_1 是個平衡參數,這里使用的負例通過隨機替換正例中的部分得到。
?
2.Bootstrpping實體對齊方法
本方法的目的是最大化對齊似然,并符合1對1的對齊約束,在這種設定下,對于一組實體對齊(x, y),y被視為是x的標簽(我個人是這樣理解的)。故該問題建模為以下形式:
其中 表示第t次迭代得到的實體嵌入,Y’ 表示對于x存在的候選對齊樣本集合。
???? 是一個標記函數,當(x, y)構成一組對齊的時候其函數值為1,否則為0。當得到新的對齊實體時,將其作為增量添加到訓練集中用于下一次迭代。
?
考慮到新生成的對齊樣本可能引起矛盾,這里作者使用的策略是對比出現矛盾的對齊實體,取對齊似然更高的樣本保留,計算形式為:
結果>0時保留(x, y) ,反之選擇(x, y’ )。
?
3.利用全局信息
這里的全局信息指全部實體樣本存在對齊(有標注)的概率分布情況,作者將其定義為以下表示:
以此為基礎,作者構建了一個負對數似然函數,用于強化原始樣本中對齊實體對知識嵌入的優化。
添加全局信息函數后,整體目標函數擴充為以下形式:
實驗
作者列出了自己的實驗配置,并開源代碼供讀者研究使用
開源地址:https://github.com/nju-websoft/BootEA
數據方面使用DBP15K,DWY100K兩個數據集
最后,綜合實驗結果看來,這確實是目前最好的對齊模型。
?
論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識問答,自然語言處理,機器翻譯。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 征稿 | Call for papers
- 下一篇: 论文浅尝 | 基于图注意力的常识对话生成