论文浅尝 - CIKM2020 | Relation Reflection Entity Alignment
論文筆記整理:譚亦鳴,東南大學博士生。
來源:CIKM 2020
鏈接:https://arxiv.org/pdf/2008.07962.pdf
研究背景與任務描述:
實體對齊旨在基于已有對齊實體標注的情況下,確定不同KG中未知的對等實體,其本質是multi-source KGs的一體化.
隨著GNN在對齊工作的引入,現有模型的方法愈加復雜。作者在相關的研究中發現了兩個不尋常的情況:Q1. GNN中的標準線性轉換效果并不好;Q2. 許多面向預測任務的新KG embedding方法在對齊任務上的效果較差。本文將現有的實體對齊方法抽象為統一的框架:Shape-Builder & Alignment,該框架不僅解釋了上述情況的原因,并且給出了對于理想轉換操作的兩個關鍵標準。作者基于此構建了一個新的GNN-based method “Relation Reflection Entity Alignment, RREA”,該方法的主要思路是利用relation reflection transformation更有效率的獲取到每個實體的relation specific embedding。真實數據上的實驗表明該方法是SOAT
目前的Entity Alignment方法主要分為兩類:
基于翻譯(Translation-based)受跨語言word embedding任務的啟發,這類方法假定不同的KG的embedding空間包含相似的分布,因此KGs之間的對齊實體在各自的向量空間中具有相似的位置特性。這類方法首先使用Trans-based KG embedding方法對各KG做單獨的表示學習,得到各自的entity和relation向量表示,而后使用已知的(標注的)實體對齊將其投影到統一的向量空間中。
基于GNN(GNNs-based)不同于上述方法(relation作為實體之間的轉換),GNNs通過鄰居節點的集合(聚集)信息,生成節點級別的embedding。
?
對于上述兩個問題的分析和猜想:
Q1. GNN最初是使用標準線性變換矩陣設計的,但是許多GNN-based將其約束為單位或者對角線。過去的方法都將其視為參數規約,但是并未就此做出解釋和討論。作者嘗試在GCN-Align中刪去這個設置時,模型性能在Hits@1上下降了10%,因此認為其中存在某些更加本質的問題;
Q2.許多任務中(比如鏈接預測)都需要KG模型,許多新的KG embeddings方法被提出并在這些任務上取得了不錯的效果。但是在鏈接預測之類任務上效果出眾的模型卻沒有在對齊任務上展現出顯著的優勢,過去的工作中僅給出了“并不是所有對于鏈接預測有效的模型都適用于實體對齊”,但并未給出進一步的分析。
為了進一步分析兩者的原因,作者提出了一個抽象實體對齊框架,名為“Shape-Builder & Alignment”。在這個框架中,Trans-based與GNN-based方法均被視為各自設置下的特例。通過這個框架,作者成功找到了上述問題的答案:
A1. 實體對齊假定了兩個(KG)分布具有相似性,所以為了避免結構性的破壞,在轉換之后,實體的norms以及相對距離等信息應該保持不變,因此轉換矩陣被強制為正交矩陣。
A2. 許多新的KG embedding方法都遵循了一個關鍵的idea-“將實體的embeddings轉換為relation specific的版本”。然而他們的轉換矩陣并不能服從正交屬性,這就是實體對齊中這些方法效果不佳的原因。
因此作者提出兩個實體對齊上理想轉換操作的標準:1. Relation Differentiation;2. Dimensional Isometry;基于這兩個標準,作者提出一種新的轉換操作 “Relation Reflection Transformation”:該操作能夠沿不同關系的超平面反映entity embeddings,從而用于構建relation specific entity embeddings. 這種反映矩陣(reflection matrix)是正交的,因此能夠保證轉換過程中的實體及其相對距離的不變性。(作者將該轉換添加到GNN模型中,得到新的實體對齊方法RREA,relation reflection entity alignment)
Shape-Builder & Alignment
下圖是作者提出的統一對齊框架的過程示意圖:
Shape-Builder的主要函數是將隨機初始化分布約束到一個特定的分布上(稱之為shape), 圖2中的轉換模型本質上就是shape-builder。這里的前置條件是“兩個KG中獲得的embeddings應當具有shape similarity”,即對等實體在向量空間中應該具有相似的相對位置。
Alignment 當shape similarity獲得后,不同的shape可以通過標注的對齊實體所匹配。在圖2中,映射就是對齊模型中所訓練的轉換矩陣W, 這個矩陣使得已標注數據差異盡可能小(通過以下公式:)
其中ei與ej是一對已知對齊,h表示對應實體的向量,為了保留轉換中的不變性,W被約束為一個正交矩陣。
GNN-based方法在Shape-Builder & Alignment框架下的適用性分析:
基于GNN的實體對齊方法一般包括以下過程:
N表示實體e周圍的鄰,W則是l層的轉換矩陣,公式2用于將實體鄰居的信息聚合,而公式3用于將實體的embedding轉換為一個更佳的版本。有許多的操作可以實現聚合的目的(例如normalized mean pooling或者attentional weighted summation)。
在得到embedding之后,GNN方法一般會構建如下損失使得對等實體更加接近對方,其中帶有” ’ ”的為負例樣本(隨機替換正例樣本中的實體得到)。
在AliNet中也有類似的損失函數:
可以看到,這類損失均可以拆分為兩個部分:
1.對齊損失(正例)->框架中的alignment部分;
2.分離損失(負例)->框架中的shape-builder
為了進一步證明可用性,作者進行了可視化實驗,在GNN-based方法作為shape-builder得到的分布中(使用AliNet),效果還是很清晰的。
為了衡量轉換后向量分布的結構相似性,作者構建了一種相似性度量方法(帶波浪線的實體來自某一KG,不帶的來自另一KG,帶有“ ’ ”的則為隨機負例):
實驗數據
實驗使用的語料是DWY100K及DBP15K,統計信息如下:
實驗結果:
表3主要對比的是初始化時使用/不使用正交矩陣約束的情況下,模型的效果。
表4則是在不同GNN方法上的消融實驗結果。
表5對比了該框架下不同KG embedding方法的效果差異性。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - CIKM2020 | Relation Reflection Entity Alignment的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 | 如何提升推荐系统的可解释性
- 下一篇: 技术动态 | 多模态知识图谱