论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...
論文作者:申雨鑫,天津大學碩士
發表會議:CIKM 2021
鏈接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421
動機
知識圖譜表示學習旨在將實體和關系編碼到一個連續的低維向量空間中。大多數現有方法主要在歐氏空間中學習結構三元組的表示,不能很好地利用知識圖譜中的豐富語義信息。論文提出了一種雙曲空間中的數據類型感知的知識圖譜表示學習模型DT-GCN,首先,將屬性值的數據類型細化為五類,包括整數、浮點、布爾、時間和文本型;然后,對于每種類型,設計不同的編碼器用于學習其嵌入;最后,在歐氏空間、球形空間和雙曲空間的基礎上定義了一個具有連續曲率的統一空間,能夠結合三種不同空間的優點。在合成數據集和真實數據集上的大量實驗表明,模型的性能始終優于基線模型,證明了融入數據類型信息以及利用雙曲空間和統一空間的優勢。
亮點
DT-GCN的亮點主要包括:
1.首次在知識圖譜表示學習中引入了屬性值的數據類型這一語義信息;2.首次探索了具有連續曲率的統一空間中的融入數據類型信息的知識圖譜表示學習方法;
概念及模型
DT-GCN由兩個主要模塊組成:通用編碼器和專用編碼器。前者對節點嵌入進行初始化、構建實體的關系感知表示并得到整數型屬性的嵌入結果;后者對浮點型、布爾型、時間型和文本型屬性進行編碼,并得到相應的嵌入結果。此外,基于歐式、球形和雙曲空間構建了一個具有連續曲率的統一空間,并探索了在此空間上的知識圖譜表示學習。
DT-GCN的技術細節包括以下四部分:
?Data type refinement:將XML schema中定義的數據類型進行精化。?General encoders:通用編碼器部分,包括嵌入層和關系感知層。?Dedicated encoders:專用編碼器部分,包括注意力層、GRU層、BiGRU層和FNN層。?The unified space:基于歐式、球形和雙曲空間構建的統一空間。
模型整體框架如下:
?數據類型劃分
為了避免出現類型的冗余和過高的復雜度,需要對數據類型進行分類,通過把具有相同特征的數據類型合并,能夠將這些數據類型細化為五大類,包括整數型、 浮點型、布爾型、時間型以及文本型屬性。具體如下:
?通用編碼器
在通用編碼器中,首先通過嵌入層將節點初始化并非線性轉換為更高級別的特征,具體如下:
然后在關系感知層,使用關系和屬性值構造實體的關系感知表示,具體如下:
?專用編碼器
專用編碼器包括注意力、GRU、BiGRU和FNN層,分別用于編碼浮點型、布爾型、文本型和時間型屬性。并且每一層只處理其對應的屬性,忽略其他屬性。
首先,作者使用注意力機制(注意力層)來計算浮點型屬性的重要性,以提高其表示的準確性。將實體的結構表示及其關系表示合并,學習關系感知的嵌入;通過對關系感知嵌入的雙曲變換及雙曲激活,學習關系感知嵌入的重要性,得到雙曲注意力系數;通過softmax函數將注意力系數歸一化,得到雙曲注意力值。然后將注意力值與關系感知嵌入進行加權合并得到實體嵌入,具體如下:
然后,作者使用門控循環單元(GRU層)來決定結果中是否應包含布爾屬性。更新門用于決定哪些信息需要流入未來,重置門則是控制過去的哪些信息需要被遺忘,利用GRU中的兩個門控單元的特點,將第t個布爾型屬性值作為第t步的輸入狀態,并進一步計算出隱藏狀態和輸出狀態。通過這種方式,不僅可以在實體嵌入中融入屬性值,還能夠建立起屬性值之間的聯系。通過新的雙曲運算符,作者給出了雙曲空間中的GRU的定義方式,具體如下:
進一步地,作者定義了一個雙向GRU(BiGRU層)來有效處理文本屬性。BiGRU層由正向GRU和反向GRU組成,通過合并正、反向GRU的輸出,得到實體嵌入,具體如下:
最后,作者應用具有不固定層數的多層前饋神經網絡(FNN層)來捕獲時間屬性。作者定義了一個包含世紀、十年、年、季度、月、周、日、小時、分鐘以及秒在內的10級時間層次結構,分別設置了每一層級的最大值,并將FNN的最大層數設置為10,為每一層定義一個權重矩陣。屬性所具有的時間層級決定了該屬性通過FNN的哪一層,通過這種方式,建立起不同時間層級之間的聯系并靈活地學習時間類屬性的表示。
?統一空間
基于流形的笛卡爾積,通過使用歐式、球形和雙曲空間,作者構造一個具有連續曲率的統一空間,并對各個空間的使用數量作出一定的限制,具體如下:
實驗
作者在YAGO-10、FB15k-237、WN18RR和DBpedia-literals等4個數據集上進行實驗,數據集的統計信息具體如下:
論文對比了11種基線模型,在知識圖譜鏈接預測和節點分類任務上驗證了提出的DT-GCN模型的有效性,結果如下:
論文在統一空間上進行了消融實驗,將提出的DT-GCN模型與三種混合空間中的模型SH-GCN*、EH-GCN*和SH-GCN*進行對比,DT-GCN模型仍然取得了最佳性能,結果如下:
論文在數據類型上進行了消融實驗,將不能區分數據類型的HGCN模型作為基線,對比了HGCN+integer、HGCN+double、HGCN+Boolean、HGCN+temporal、HGCN+textual以及HGCN*模型,六種能夠區分細粒度數據類型的模型均取得了優于HGCN模型的效果,結果如下:
論文研究了維度對性能的影響,在DBpedia-literals數據集上對比了DT-GCN、HGCN*和HGCN模型在維度4、8、16、32、64上的性能,DT-GCN模型性能最佳,結果如下:
總結
論文提出了一種雙曲空間中的數據類型感知的知識圖譜表示學習模型DT-GCN,以充分利用屬性值的數據類型這一語義信息。具體而言,DT-GCN將每個實體投影到一個具有連續曲率的統一空間中,并通過細粒度數據類型進一步增強知識圖譜表示學習。實驗結果證明,論文提出的DT-GCN模型在具有豐富類型的知識圖譜鏈接預測和結點分類任務上顯著優于基線模型。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | KGQR: 用于交互式推荐
- 下一篇: 论文浅尝 | Generative QA