ACL 2019开源论文 | 基于Attention的知识图谱关系预测
作者丨王文博
學校丨哈爾濱工程大學碩士生
研究方向丨知識圖譜、表示學習
動機
由于傳統方法都將三元組進行獨立的處理,忽略了其相鄰的三元組之間隱藏的固有信息的缺點,使得無論是轉化模型還是較新的基于卷積神經網絡(CNN)的模型都不能獲取在給定三元組附近的豐富的潛在結構信息。因此本文為解決上述問題嘗試用圖神經網絡(GNN),從以下兩方面進行創新:
通過不斷迭代注意力機制網絡,來為與給定節點具有不同距離的鄰居結點賦予不同注意力值,使得最終該節點的嵌入向量包含多跳鄰居節點信息在其中。通過以上方法構建出了針對知識圖譜關系預測的嵌入模型。
為了解決距離越遠連接的實體數量呈指數增長的問題為 n 跳實體引入輔助邊作為輔助關系。
模型
背景知識補充?
知識圖譜可以表示為 ζ=(?,R),其中 ? 和 R 分別表示集合中的實體(結點)和關系(邊)。對于三元組可以表示兩個實體節點之間存在邊 r。嵌入模型試圖學習實體、關系以及得分函數的有效表示,以達到當給定一個三元組作為輸入時,得分函數 f(t) 可以給出 t 是真實三元組的概率。?
圖注意力神經網絡(GATs)?
圖注意力神經網絡 (GANs)不同于圖卷積神經網絡(GCNs)將所有鄰居實體的信息賦予相同權重的策略,采用了按照鄰居實體結點對給定實體結點的不同重要程度分配不同權重的策略。表示該神經網絡中一層結點中的輸入特征集合。該層生成的變換后的特征向量為,其中和分別表示實體的輸入嵌入向量與輸出嵌入向量,N 表示實體(結點)的個數。單獨的 GAT 層可以描述為下述公式:
其中表示知識圖譜中邊的注意力值,W 是一個可以將輸入特征映射到更高維的輸出特征空間中的參數化的線性轉化矩陣,a 是所選擇的注意力函數。
每個邊的注意力值表示邊的特征對源結點的重要程度。此處相對注意力值通過對鄰居集合中得出的所有注意力值進行 softmax 運算得出。公式(2)展示了一個輸出層。
GAT 運用多頭注意力來穩定學習過程。連接 K 個注意頭的多頭注意過程如公式(3)所示:
其中 || 表示連結方式,σ 表示任意的非線性函數,表示由第 k 個注意力機制計算的邊的歸一化系數,表示第 k 個注意力機制對應的線性轉化矩陣。為達到多頭注意的目的,在最終層的輸出嵌入向量是通過計算平均值得出的而不是采用連接操作得出的。如公式(4)所示:
關系十分重要
雖然 GAT 取得了成功,但是由于忽略了知識圖譜構成中不可或缺的關系(邊)上所具有的特征,所以 GATs 方法并不適用于知識圖譜。在知識圖譜中,實體依據與它們相連的關系在三元組中具有不同的作用。因此作者提出了一種將關系與相鄰節點特征相結合的新型方法構建潛入模型。據此,定義了一個單獨的注意層,它是構成本文中提出的模型的構建單元。與 GAT 類似,本文中的框架對注意力機制的特定選擇是不可知的。
本文提出的模型中的每一層都將兩個嵌入矩陣作為輸入。實體嵌入矩陣用矩陣來表示,其中第 i 行表示實體的嵌入向量,表示實體總數,T 表示每個實體嵌入向量的特征維數。用一個相同結構的矩陣來表示關系的嵌入向量矩陣。然后該層輸出兩個對應的嵌入矩陣和。
為獲得實體的新的嵌入向量,學習了一種與相連的每一個三元組的表示。如公式(5)所示,通過對實體和關系特征向量的連接進行線性變換來學習這些嵌入,這些特征向量對應于一個特定的三元組。
其中是一個三元組的一個向量表示。向量、與分別是實體、和關系的嵌入向量。除此之外,表示線性轉化矩陣。該模型學習了每一個三元組的重要程度,用表示。之后用一個權矩陣作為參數進行線性變換,然后應用 LeakyRelu 非線性得到三元組的絕對注意值(如公式(6))。
如公式(7)所示,為了獲得相對注意力值,對所有進行 softmax 運算。圖三展示了對于一個三元組相對注意力值的計算過程:
其中表示所有與實體相鄰的實體的集合,表示連接實體與的關系的集合。實體的新的嵌入向量是由對每一個三元組表示向量按注意力值進行加和得到的。如公式(8)所示:
為了穩定學習過程,且壓縮更多的有關鄰居結點的信息,采用多頭注意力機制。將 M 個獨立的注意力機制用來計算,將其連接,可以表示如下:
圖四展示了圖注意力層結構。如公式(10)所示,將一個權重矩陣作用于關系嵌入矩陣 G 進行線性變換,其中 T' 是輸出的關系嵌入向量的維度。
在模型的最后一層作者采用對最終的實體的嵌入向量取平均的方式而不是像多頭嵌入一樣采用連接嵌入。具體公式如下:
但是當學習新的嵌入向量時,實體丟失了它們最初的嵌入向量信息。因此為了解決這個問題,作者通過用一個權重矩陣對進行線性變換得到。其中表示本文模型中作為輸入的實體嵌入向量,表示轉化后的實體嵌入向量,表示初始實體嵌入向量的維度,表示最終實體嵌入向量的維度。作者將最初的實體嵌入向量的信息加到從模型最終注意力層獲得的實體嵌入向量矩陣上,公式如下:
在本文的架構中,作者通過將兩個實體間存在的多跳關系作為輔助關系的方式將邊的定義擴充為有向路徑。這個輔助關系的嵌入是路徑中所有關系的嵌入之和。本文的模型迭代地從一個實體的遙遠鄰居那里積累知識。
如圖 2 所述,在本文中模型的第一層,所有實體捕捉了與它們直接相連的鄰居信息,在第二層中,U.S 結點從實體 BarackObama、EthanHorvath、Chevrolet 和 WashingtonD.C 結點聚集信息,這些節點中已經從之前層中獲得了他們鄰居節點 MichelleObama 和 SamuelL.Jackson 的信息。
總之,對于一個 n 層模型來說,傳入的信息是根據 n 跳相鄰的鄰居計算得出的。學習新的實體嵌入向量的聚合過程和相鄰多跳結點間的輔助邊的引入在圖二中都有所展示。對于每一個主要的迭代過程,在第一層之前,在每一個廣義的 GAT 層之后,作者對實體的嵌入向量進行了規范化處理。
訓練目標?
作者提出的模型借鑒了平移得分函數的思想,使得在學習嵌入向量的過程中,假設給定一個真實的三元組,存。作者嘗試學習實體和關系嵌入來最小化由給出的 L1 -范數不相似測度。并用 hinge 損失來訓練本文中的模型,具體公式如下:
其中 γ>0 是一個邊緣超參數,S 是正確的三元組集合,S' 表是不正確的三元組集合。S' 按照如下形式給出:
解碼
本篇模型采用 ConvKB 作為解碼器,卷積層的目的是分析三元組各個維度上的全局嵌入特性,并歸納出模型中的轉化特性。根據多個特征映射得到的得分函數可以寫成如下形式:
其中表示第 m 個卷積過濾器,Ω 是表示過濾器數量的超參數,* 是卷積運算符,表示一個用于計算三元組最終得分的線性轉化矩陣。模型用軟邊界損失函數來進行訓練。
當時,;當時,。
實驗與結果
數據集
WN18RR
FB15k-237
NELL-995
Unified Medical Language Systems(UMLS)
Alyawarra Kinship
訓練方法?
通過每次隨機用一個無效實體替換有效三元組的頭實體或尾實體來產生兩個無效三元組集合,并從這兩個集合中隨機抽取數目相等的無效三元組,以確保頭尾實體檢測的魯棒性。用 TransE 方法獲得的實體與關系的嵌入向量來初始化本模型。?
本文采用一個兩步過程來進行訓練。首先訓練廣義 GAT 來編碼關于圖實體和關系的信息,然后訓練諸如 ConvKB 模型作為解碼器來進行關系預測任務。傳統的 GAT 模型只根據一跳鄰居的信息對公式 3 進行更新,但本文的泛化 GAT 則運用多跳鄰居對公式 3 進行更新。并通過引入輔助關系來收集稀疏圖中鄰居的更多信息。采用 Adam 優化器,將其學習率設置為 0.001。最終層得到的實體、和關系的嵌入向量設置為 200 維。?
評估方法?
在關系預測任務中,通過用其他所有實體對有效三元組中的頭實體或尾實體進行替換,并在產生一個(N-1)三元組集合,其中 1 為被替換之前的有效三元組,N 表示經過替換后產生的三元組。最后移除該三元組集合中所有經過替換產生的有效三元組,只保留由替換產生的無效三元組,與替換之前的唯一一個有效三元組組成一個三元組集合。對該集合中的所有三元組進行打分,并根據分數進行排序。用平均倒數排名(MRR),平均排名(MR)以及 Hits@N(N = 1, 3, 10) 指標來對模型進行評估。
結果分析
表 2 表 3 上展示了所有數據集上進行預測的結果。結果說明本文提出的模型在數據集 FB15k-237 上,五個指標均達到最好效果。在 WN18RR 數據集上,只有兩個指標達到最好效果。?
注意力值 vs 輪數:?
本文研究了一個特定節點的注意隨輪數間隔增加的分布。圖 5 展示了在數據集 FB15k-237 上,注意力值與輪數的關系分布。在學習過程的初始階段,注意力值隨機分布。隨著訓練過程地進行,并且本文的模型從鄰居中獲得更多的信息,更多的注意力集中于直接鄰居,并且從較遠的鄰居中獲得更少的信息。一旦模型收斂,它就學會從節點的 n-hop 鄰居中收集多跳和聚類關系信息。?
頁面排序分析:?
本文假設,相對于稀疏圖,在稠密圖中更容易捕獲實體之間復雜且隱藏的多跳關系。為了驗證這個假設,本文采用了一個與 ConvE 相似的分析過程,研究了平均頁面排名與相對于 Disrmult 中 MRR 的增長的關系,并發現當相關系數為 r=0.808 時具備極強的關聯性。表 4 表明,當平均界面排名得到增長時,MRR 的值也同樣會得到增長。并觀察到 NELL-995 與 WN18RR 之間的相關性出現異常,并將其歸因于 WN18RR 的高度稀疏和層次結構,這對本文的方法提出了挑戰,因為本文的方法不能以自上而下的遞歸方式捕獲信息。
腐蝕研究
在這里分析了當移除路徑信息時(-PG)MR 值的變化。如:移除關系信息和 n 跳信息(-relation)。根據圖 7 可以得出當移除關系信息時會對模型產生巨大影響,并可得出關系信息在進行關系與測試至關重要的結論。
總結
本文的貢獻:
本文提出的模型學習了新的基于圖注意的嵌入,專門用于知識圖譜上的關系預測。
本文推廣和擴展了圖注意機制,以捕獲給定實體的多跳鄰域中的實體和關系特征。?
后續工作方向:
改進本文中的模型以更好地處理層次結構圖。
嘗試在圖注意力模型中捕獲實體之間的高階關系。
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的ACL 2019开源论文 | 基于Attention的知识图谱关系预测的全部內容,希望文章能夠幫你解決所遇到的問題。