论文浅尝 - ACL2020 | 用于实体对齐的邻居匹配网络
筆記整理 | 譚亦鳴,東南大學博士
來源:ACL 20
鏈接:https://www.aclweb.org/anthology/2020.acl-main.578.pdf
1.介紹
圖譜之間的異構差異是建立實體對齊的一個主要挑戰,本文提出了Neighborhood Match Network (NMN),用于處理上述挑戰。NMN的主要創新在于:
i.使用一個圖采樣方法(neighborhood sample)為每個實體提取一個不同的鄰居;
ii.建立跨圖鄰居匹配模型對給定實體對的鄰居差異進行聯合編碼。這種策略使得NMN能夠有效的建立面匹配的實體表示,而忽略具有負面影響的噪聲鄰居。作者在DBP15K,DWY100K以及S-DBP15K等三個數據集上進行了充分實驗,證明NMN能夠在更困難的情況下評估鄰居相似性,相對已有的12種方法也展現出更優的性能。
2.模型/方法
首先給出一些基本定義:
G表示一個KG
G = (E,R,T), E,R,T分別表示實體集,關系集,三元組集
方法用于構建兩個KG之間的實體對齊,即G1和G2
任務的最終目的是獲取G1與G2之間的等價實體pair
在真實KG之間,鄰居異構以及通用噪聲鄰居的存在,使得對齊模型難以從中捕捉到有效的信息。為了解決這個問題,NMN首先使用GCN對鄰居的拓撲信息進行建模,然后使用neighborhood sample選擇更具價值的鄰居,接著通過跨圖匹配模型捕捉鄰居差異。
圖2給出了本文模型的主要框架流程:
模型輸入是兩個KG,G1和G2
模型為每組實體對e1和e2做embedding,從而利用測量兩者的距離d(e1,e2)來執行實體對齊。
模型涵蓋四個主要流程:
1.KG結構embedding
2.鄰居采樣
3.鄰居匹配
4.面向embedding生成的鄰居融合
下面對四個流程分別做詳細說明
1.KG結構embedding
NMN使用預訓練的詞向量用于GCN的初始化,這個策略使得編碼涵蓋了實體命名的語義信息。G1和G2被作為一個圖揉合輸入到NMN種,通過多層的GCN進行embedding,每層GCN使用節點特征集作為輸入,并且通過以下過(公式1)更新每個節點的表示:
因此,第l層的節點特征輸出如下所示:
其中,Ni表示實體i的鄰居數,是歸一化常數,則是網絡中的可學習權值矩陣。
2.?鄰居采樣(neighborhood sample)
對于實體來說,一跳鄰居(1-hop neighborhood)是決定它與其它實體是否對齊的關鍵。但是并不是每個一跳鄰居都對對齊提供了積極影響。為了選擇那些更好(有益于對齊學習)的鄰居。這里使用了一個下采樣過程,從目標實體的一跳鄰居中選擇更具有價值的部分。
由于在初始化階段使用的是實體命名的預訓練詞向量,GCN學習到的entity embedding同時涵蓋了豐富的上下文鄰居結構和實體語義信息。NMN探索這些信息用于采樣有價值的鄰居,例如那些包含更多與中心實體相關的上下文信息的鄰居將會有更大概率被采樣。這里作者的主要發現是當鄰居與中心實體具有相同的文本時,該鄰居具有更強的代表性。
從形式上,對于實體ei的一跳鄰居ei_j(ei的第j個鄰居)采樣的概率可以由以下公式描述(公式2):
其中,Ni是中心實體ei的一跳鄰居索引,hi與hi_j分別表示實體ei與其鄰居ei_j的embedding,Ws則是共享的權值矩陣。
基于這種有選擇的一跳鄰居采樣,NMN本質上對每個實體的鄰居建立了一個有差異的子圖,這幫助模型在鄰居匹配過程獲得更加準確的對齊。
3.鄰居匹配(neighborhoodmatching)
基于采樣過程的篩選,匹配階段將只需要在采樣獲得的鄰居子圖上進行。匹配的目標是在對應KG(counterpart KG)中找到每個候選實體(其鄰居與目標實體的采樣子圖相關)
對于E1中的實體ei,需要與E2中每個候選實體對比兩者的鄰居子圖。對于真實的大型圖譜來說,候選實體顯然是需要經過篩選得到,NMN首先通過以下公式(公式3)確定哪些實體j能夠作為目標實體ei的候選對齊實體:
確定候選實體之后,要做的就是對子圖做匹配,從而決定兩者是否能夠形成一組對齊,該過程可以形式化表示為公式4和5,假定ei和cik是一組需要被評估的實體pair,p和q是兩者的鄰居:
其中,apq是注意力權重,mp是p的匹配向量,它衡量了hp與其在其他子圖中最接近鄰居的差異。N是cik采樣的鄰居集,hp與hq是p和q的GCN-output embedding。
而后使用加權匹配向量mp連接鄰居p的GCN-output embedding,形如:
對于鄰居子圖中的每個目標鄰居,匹配模型中的注意力機制可以精確的判斷另一KG的鄰居子圖中有哪個鄰居最可能與目標鄰居匹配。直觀上,匹配向量m能夠捕獲兩個最接近鄰居之間的不同。當兩個鄰居具有相似的表示,匹配向量趨向于一個0向量從而使他們的向量表示保持相似性。
4.鄰居融合(neighborhoodaggregation)
在融合階段,本文利用KG結構embeding聯合鄰居連接信息,作為匹配階段的輸出,生成最后用于對齊的embedding。
對于實體ei,本文首先融合它的采樣鄰居表示,如公式7所示:
接著,連接中心實體ei的GCN表示hi與它的鄰居:
實體對齊與訓練
預訓練:由于鄰居采樣基于GCN實體embedding,因此作者首先預訓練GCN KG embedding模型,從而獲得高質量的實體表示。具體來說,作者使用公式9的方式衡量兩個實體之間的距離定義其是否應該是對齊的:
因此,GCN KG embedding預訓練模型的目標如公式10所示:
其中,是一個超參,是對齊種子,則是負例。
3.實驗
數據
表1和表2給出了本文使用的數據集統計信息。
數據30%用于訓練,70%用于測試,為了驗證模型在更加困難的情況下的對齊能力,作者從DBP15K的中,日,法中隨機刪去了部分實體,以提升實體在不同KG中的鄰居差異,形成了S-DBP15K。
實驗結果
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 用于实体对齐的邻居匹配网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于图匹配神经网络的跨语言
- 下一篇: 征稿 | 国际KG大会 IJCKG 20