论文浅尝 | 区分概念和实例的知识图谱嵌入方法
鏈接:https://arxiv.org/pdf/1811.04588.pdf
?
知識圖譜的表示學習最近幾年被廣泛研究,表示學習的結果對知識圖譜補全和信息抽取都有很大幫助。本文提出了一種新的區分概念和實例的知識圖譜表示學習方法,將上下位關系與普通的關系做了區分,可以很好的解決上下位關系的傳遞性問題,并且能夠表示概念在空間中的層次與包含關系。本文的主要貢獻有三點:(1)第一次提出并形式化了知識圖譜嵌入過程中概念與實例區分的問題。(2)提出了一個新的嵌入模型TransC模型,該模型區分了概念與實例,并能處理isA關系的傳遞性。(3)基于YAGO新建了一個用于評估的數據集。
Background
傳統的表示學習方法沒能區分概念(concept)和實例(instance)之間的區別,而是多數統一看作實體(entity),而概念顯然和實例不是同一個層次的,統一的表示是有欠缺的。更重要的是,之前的方法多數無法解決上下位關系傳遞性的問題,這是不區分概念和實例表示的弊端。本文創造性的將概念表示為空間中的一個球體,實例為空間中的點,通過點和球體的空間包含關系和球體間的包含關系來表示上下位關系,這種表示可以很自然地解決上下位關系傳遞性的問題。下圖是一個區分了概念,實例的層次關系圖。
Model
通常在人們的腦海里,概念都是通過層級的方式組織起來的,而實例也應歸屬于與它們各自對應的概念,受此啟發,本文提出了 TransC 模型來處理概念和實例區分的問題。在 TransC 模型里,每一個概念都被表示成一個球體,而每一個實例都被表示到與對應概念相同的語義空間中。概念與實例以及概念與概念之間的相對位置分別通過 instanceOf 關系與 subClassOf 關系來刻畫。InstanceOf 關系用來表示某個實例是否在概念所表示的球體中,subClassOf 關系用來表示兩個概念之間的相對位置,文中提出了四種可能的相對位置:
圖1
如圖1所示,(a)、(b)、(c)、(d)分別表示兩個概念所表示球體的相對位置,其中m為球體半徑,d 為兩個球體中心的距離,Si 與 Sj 分別表示概念i與概念j所表示成的球體。對于 instanceOf 關系與 subClassOf 關系,文中有比較巧妙的設計以便保留 isA 關系的傳遞性,即 instanceOf-subClassOf 的傳遞性通過來體現,而 subClassOf-subClassOf 的傳遞性通過來體現,其中 (i, r_e, c) 表示InstanceOf三元組,(c_i, r_c, c_j) 表示SubClassOf三元組。
文中設計了不同的損失函數去度量embedding空間中的相對位置,然后用基于翻譯的模型將概念,實例以及關系聯合起來進行學習。在文中主要有三類triple,所以分別定義了不同的損失函數。
??? InstanceOf Triple表示:對于一個給定的 instanceOf triple,如果它是正確的,那么i就應該被包含在概念c所表示的球體s里。而實際上,除了被包含以外,很顯然還有一種相對位置就是實例i在球體s(P,m)之外,損失函數設計為:
??? SubClassOf Triple表示:對于一個給定的 subClassOf triple (c_i, r_c, c_j) ,首先定義兩個球中心之間的距離:按照圖1所示的四種關系,還有另外三種損失函數需要定義。(1)按照圖1中(b)表示的相對位置,兩個球是分開的,損失函數表示為:(2)兩個球相交,如圖1中(c)所示,損失函數表示為,與(1)類似。(3)完全包含關系,如圖1中(d)所示,損失函數表示為:(減小mj,增大mi)
??? Relational Triple 表示:對于一個relational triple (h, r, t) ,TransC利用TransE模型的訓練方式來得到實體和關系的向量,所以損失函數定義為:
??? 對于模型的訓練,分別用和來表示正確和錯誤的三元組,根據以上幾類損失函數,可以對應得到以下幾類損失:
對于instanceOf triples,損失表示為,對于subClassOf triples,損失表示為,對于 relational triples,損失表示為,最后,模型的最終損失函數為以上幾類損失的線性組合,即。
Experiment
以往的大多數模型都用FB15K和WN18來作為評估的數據集,但這兩個數據集并不很適合文中的模型,而YAGO數據集不僅含了許多概念而且還有不少實例,所以作者構建了一個YAGO數據集的子集YAGO39K來用作試驗評估。
實驗分別在鏈接預測,三元組分類以及instanceOf與subClassOf關系的三元組分類這幾項任務上進行,實驗結果如下:
?? 鏈接預測與三元組分類結果:
instanceOf triple分類結果:
subClassOf triple分類結果:
實驗結果表明,TransC模型在相關任務上與其它模型相比有較為顯著的提升。
?
Conclusion
本文從Ontology層面對知識表示學習進行了較為深入的研究,提出了新的知識圖譜嵌入模型TransC模型,該模型將實例、概念以及關系嵌入到同一個空間中以便用來處理isA關系的傳遞性。在實驗部分,作者還創建了一個用來評估模型的新數據集YAGO39K。實驗結果表明TransC模型在大多數任務上要優于傳統的翻譯模型。對于文中將概念表示成球體的想法似乎還可以繼續探討,作者將會繼續尋找適合表示概念的方式。另外,每個概念在不同的三元組里可能會有不同的表示,如何進一步地將概念的多意性表達出來也是一個值得探究的方向。在傳統的知識工程領域,知識是通過schema組織起來的,有較強的邏輯性,但在語義計算層面相比向量來說沒有優勢,最近有不少將二者相結合的工作(給語義的向量計算披上邏輯的外衣)值得關注一下。
?
論文筆記整理:張良,東南大學博士,研究方向為知識圖譜,自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 区分概念和实例的知识图谱嵌入方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | HiTA知识图谱 “药品-
- 下一篇: 论文浅尝 | 从知识图谱流中学习时序规则