论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入
筆記整理:黎洲波,浙江大學碩士,研究方向為自然語言處理、知識圖譜。
研究背景
知識圖譜因其在問答、語義解析和命名實體消歧等任務取得了良好的效果而受到廣泛關注,而大部分知識圖譜都存在不全和缺失實體鏈接的問題,所以需要進行鏈接預測(Link Prediction)和知識圖譜補全(Knowledge Graph Completion)。知識圖譜嵌入(Knowledge Graph Embedding)方法被提出來解決該問題。知識圖譜嵌入是將知識圖譜中所有的實體和關系嵌入到低維空間的方法,從基于距離的方法TransE到目前的效果最好的RotatE,在知識圖譜補全任務上效果持續提升。
在知識圖譜嵌入中,有兩個主要問題受到廣泛關注:
1.如何解決1對N,N對1和N對N的復雜關系表示問題。比如1對N的關系:基于距離的方法中,三元組(StevenSpielberg, DirectorOf, ?)的補全要求在經過關系變換DirectorOf后,Jaws和JurassicPark等實體能夠距離StevenSpielberg更接近,但是使所有這類實體具有不同的表示是很困難的。2.如何通過已有的三元組學習和推斷關系模式。關系模式例如對稱(Symmetry)關系IsSimilarT,非對稱(Antisymmetry)關系FatherOf,逆向(Inverse)關系PeopleBornHere和PlaceOfBirth以及組合(Composition)關系mother’s father is grandpa等等。
研究動機
之前的TransH、TransD和TransR等方法致力于解決復雜關系表示問題,卻只能編碼對稱/非對稱關系,最新的RotatE在編碼對稱/非對稱關系,逆向關系和組合關系上取得了優異的效果,但是復雜關系的預測依然具有挑戰性。由此,論文提出了一種新的知識圖譜嵌入方法PairRE,它能夠同時編碼復雜的關系和多種關系模式。
研究方法
模型中使用的兩個用于關系表示的向量將頭尾實體分別投影到歐式空間,再最小化投影向量的距離。其形式化描述如下:
PairRE和前面提到的幾種方法的比較如下,可以看出相比于RotatE,論文提出的PairRE方法在復雜關系表示上表現更優,同時在關系模式的編碼上能夠編碼子(Sub)關系。
直觀來說,PairRE中所有的實體表示都在一個超球上。
相比于其他方法,PairRE允許一個實體在不同的關系中有分布式表示,并且成對的關系向量能夠對損失函數中的邊際進行自適應調整,從而緩解復雜關系的表示問題。例如在1對N的關系補全(h, r, ?)中,由正確的尾實體集合S = {t_1,t_2,…,t_N},論文基于固定邊際參數γ的設計了t_i的取值范圍:
在TransE和RotatE中也有類似的固定邊際參數來控制復雜關系表示,當|S|足夠大時,PairRE能夠通過減小|r^T|來擬合t_i,而前兩種方法效果不佳。
對于各種關系模式,證明PairRE編碼的形式化描述如下:
對稱/非對稱關系模式
逆向關系模式
組合關系模式
對于子關系編碼,PairRE滿足了以下條件:
子關系模式
PairRE的模型優化中使用了自對抗(Self-adversarial)的負采樣損失函數:
其中,γ是固定邊界參數,σ是sigmoid函數,(h_i^',r,t_i^')是第i個負樣本,補充定義如下
實驗驗證
實驗中用于做鏈接預測任務的數據集信息如下圖
PairRE和其他方法的結果比較如下
上圖是本文的主實驗結果,可以看到Pair相比于RotatE在各個設定下都取得了更好的效果,如果嵌入向量的維度能夠升高到500,效果可能會進一步提升。
文中提到,由于PairRE和RotatE共享超參數和實現方法,所以客觀來說與RotatE比較更公平。
論文還針對子關系模式做了補充實驗,將PairRE同ComplEx-NNE-AER和SimplE^+進行對比,這兩種方法通過設計子關系規則進行語義匹配。論文同時借鑒了ComplEx-NNE-AER中的規則,對本來的損失函數進行改變如下:
對數據集Sports添加以下規則并獲得結果
將子關系模式中的兩個關系看作同等之后,在數據集DB100k上獲得的結果如下
模型分析
對于復雜關系的表示問題,論文對關系的種類進行分別實驗,結果表明PairE在N對1和N對N的關系表示在數據集FB15k和ogbl-wikikg2上表現明顯超過了其他模型,但是在1對1和1對N的關系表示上結果不佳。論文為了證明成對的關系向量有優越性,單獨將成對關系向量機制加在RotatE上,在ogbl-wikikg2數據集上取得了良好的效果。
對于關系模式問題,論文在嵌入向量維度為500下取DB100k中的對稱關系r_1:spouse和非對稱關系r_2:tv_station/owner,對稱關系編碼滿足r^(H^2 )=r^(T^2 ),編碼效果如下:
驗證逆向關系r_2和r_3: tv_station_owner/tv_stations,編碼滿足r_3^H°r_2^H=r_3^T°r_2^T,編碼效果如下:
驗證組合關系r_4: /location/administrative_division/capital/location/administrative_division_capital_relationship/capital,r_5: /location/hud_county_place/place和r_6: base/areas/schema/administrative_area/capital.,編碼滿足r_4^H°r_5^H°r_6^T-r_4^H°r_5^T°r_6^H,效果如下:
總結
論文提出的PairRE方法用成對的向量表示每個關系,使損失函數中的余量能夠自適應調整,以適應不同的復雜關系,在復雜度略有增加的情況下有效地解決了知識圖譜嵌入中的問題。除了對稱/不對稱、逆向和組合關系之外,PairRE還可以通過對關系表示的簡單約束編碼子關系。在大規模數據集ogbl-wikikg2上,PairRE取得了最優效果。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 公开课 | 知识图谱构建与应用概述
- 下一篇: 论文浅尝 - IJCAI2020 | K