ICLR 2019 | 基于复杂空间关系旋转的知识表示方法
作者丨王金夢
學校丨東南大學碩士生
研究方向丨知識圖譜、表示學習
動機
知識圖譜通常是不完全的,因此預測缺失的鏈路是一項基本問題,在鏈路預測任務上,已有大量的研究學習實體和關系的低維表示,這些方法的普遍目的是根據觀測到的事實建模推斷知識圖譜中的連通模式。
將知識圖譜中存在的關系模式劃分為三類:1)對稱/反對稱;2)逆;3)組合。
1. 對稱關系:(h,r,t)→(t,r,h),例如“配偶”關系;反對稱關系:(h,r,t)→?(t,r,h),例如“整除”關系;
2. 逆關系:(h,r1,t)→(t,r2,h), r1?=?,例如“父親”“兒子”關系;
3. 組合關系:(h1,r1,t1), (t1,r2,t2)→(h1,r3,t2),例如“配偶”“父親”“母親”;
已有的方法其得分函數如下所示:
分析每種模型的得分函數:
1. TransE 將關系表示為頭實體和尾實體之間的雙射函數,只能建?!澳妗标P系和“組合”關系,但是不能構建“對稱”模式,因為對于對稱關系它會產生 r=0;
2. TransX 模型是 TransE 模型的變形,當 gr,1=gr,2?時它可以構建對稱/反對稱模式,但是不能推斷逆和組合模式,因為 gr,1、gr,2?是可逆矩陣乘法;
3. DisMult 無法建模反對稱和逆模式,因為模型本身的對稱性質;
4. ComplEx 解決了 DisMult 的問題并且能夠在復數空間推斷對稱和反對稱模式,另外它還可以推導逆規則,因為共軛復數的存在,可是它不能推導組合關系,因為它通過關系 r 無法建模 h 到 t 的雙射函數。
5. HolE 和 ComplEx 模型類似,ConvE 模型是一個黑箱子,包含兩層神經網絡和卷積操作,很難去分析,因此這幾種模型可以推導的模式關系如下所示:
已存在的這些模型都只能構建和推斷其中一種或幾種模式,不存在一種模型可以完全構建所有關系模式,因此本文的動機就是尋找一種可以建模推斷所有關系模式的方法。
上一篇論文中的 TorusE 模型的思想是在緊的李群中進行平移嵌入,TorusE 模型可以看做本文提出的模型 RotatE 的一種特殊情況,即嵌入的模數確定,RotatE 模型在整個復數空間上定義,具有更強的表達能力。TorusE 模型關注 TransE 模型的正則化問題,而本文關注多種類型的關系模式的建模問題。
另外,也有一些模型建模知識圖譜的關系路徑,可是這些方法只顯式建模關系路徑,而本文提出的模型還隱式的學習關系模式。
本文同樣也研究了如何有效地進行負采樣的問題,之前已有一些模型提出了生成對抗學習框架進行負采樣?(KBGAN),可是這種框架要求同時訓練嵌入模型和一個離散的負樣例生成器,導致了難以優化和昂貴的計算代價。
模型
本文提出 RotatE 模型用于知識圖譜嵌入,靈感來源于歐拉恒等式,表明了可以將虛數單位 i 視作在復數空間中的旋轉。
分析:該恒等式中 e 代表連續,i 代表旋轉,就代表連續旋轉,+1=0 就表示自然數 1 繞原點旋轉 180°,再平移 1 就回到了坐標原點。
原理:具體來講,模型 RotatE 將實體和關系映射到復數向量空間,并且將每個關系定義為頭實體到尾實體的旋轉:給定三元組 (h,r,t),期望?t=h°r,, , ?° 是哈達瑪積,則對于復數空間中的每一維都有:
通過約束,可以將視作的形式,即對應于在復平面內關于原點逆時針旋轉弧度,并且只影響在復數向量空間內實體嵌入的相位。
距離函數可以定義為:
優化:損失函數類比詞嵌入中的負采樣損失,優化基于距離的模型:
這種負采樣損失使用統一的方式對待所有三元組,這種模式會出現問題,因為在訓練的過程中,許多樣例明顯是假的,不能提供任何有意義的信息,因此對負采樣方法進行改進,提出“自我對抗負采樣”,根據當前的嵌入模型采樣負例。具體來說,遵循以下分布采樣負三元組:
將該分布概率視作負例的權重,因此最終具有自我對抗訓練的負采樣損失函數如下:
對于這三種關系的形式化定義如下:
1. 關系 r 是對稱/反對稱的:if?x,y : r(x,y) ? r(y,x) (r(x,y) ??r(y,x));
2. 關系 r1?是關系 r2?的逆:if?x,y : r2(x,y) ? r1(y,x);
3. 關系 r1?是關系 r2?和 r3?的組合:if?x,y,z : r2(x,y)?r3(y,z) ?r1(x,z)。
可以證明通過這種簡單的旋轉操作可以有效地建模所有關系模式:例如關系 r 是對稱的當且僅當嵌入后的每個元素滿足;兩個關系 r1?和 r2?是互逆的當且僅當它們的嵌入是共軛關系(對稱相反,互相牽制):;關系是另外兩個關系和的組合當且僅當,也就是。
具體的證明過程如下:
1. 引理 1:RotatE 可以推導對稱/反對稱模式:
證明:如果有? r(x,y)? 和? r(y,x),則:
否則:如果有? r(x,y) 和? r(y,x),則:
2. 引理 2:RotatE 可以推導逆模式:
證明:如果有 r1(x,y) 和 r2(y,x),則:
3. 引理 3:RotatE 可以推導組合模式:
證明:如果有 r1(x,z),r2(x,y) 和 r3(y,z),則:
與 TransE 模型的聯系:TransE 模型除了對稱模式可以建模其它所有的關系模式,因為在 TransE 模型中對稱關系會被表示為 0,這將導致具有對稱關系的實體在嵌入空間中彼此靠近。
RotatE 模型解決了這個問題:一個任意的向量 r,只要滿足都可以用于對稱關系,因此具有對稱關系的實體可以被區分,不同的對稱關系也可以被表示為不同的嵌入向量。例如,在一維嵌入下 TransE 和 RotatE 的示意圖如下:
與 ComplEx 模型的聯系:ComplEx 屬于語義匹配模型,RotatE 屬于基于距離的模型。現有的知識圖嵌入模型大致可分為平移 (轉換) 距離模型和語義匹配模型。前者度量事實作為兩個實體之間的翻譯 (轉換) 的可信性,而后者通過匹配實體和關系的潛在語義來度量事實的可信性。旋轉和復形屬于不同的類。
實際上,可以發現 ComplEx 與 RotatE 之間的關系類似于 TransF 與 TransE 之間的關系,前者可以看作后者的一個松弛版本。另外 ComplEx 和 RotatE 之間最大的區別在于,RotatE 模型可以推斷關系的組成模式,而 ComplEx 模型不能。
與 TorusE 模型的聯系:TorusE 模型約束對象在環面上的嵌入,并將關系建模為平移,而 RotatE 模型將對象嵌入整個復雜向量空間,并將關系建模為旋轉;TorusE 模型要求在緊湊的 Lie group 上嵌入對象,而 RotatE 模型允許在非緊湊的 Lie group 上嵌入對象,后者具有更大的表示能力。
TorusE 模型實際上非常接近該模型的一個特殊情況,即約束頭部的模和實體嵌入固定。另外:TorusE 論文和本文的動機是完全不同的。TorusE 論文的目的是解決 TransE 的正則化問題,而本文的重點是推斷和建模三個重要的關系模式
實驗
數據集
使用四個廣泛使用的知識圖譜:
1. FB15k:Freebase 的子集,幾乎 81% 的測試三元組? (x,r,y)? 可以通過直接鏈接的三元組? (x,r',y)? 或? (y,r',x)? 推導出來,因此在該數據集上鏈路預測的關鍵在于建模和推導“對稱”/“反對稱”和“逆”模式。
2. WN18:WordNet 的子集,這個數據集中有很多“逆”關系,所以在該數據集上的主要關系模式也是“對稱”/“反對稱”和“逆”。
3. FB15k-237:FB15k 的子集,將其中的逆關系刪除,因此該數據集上主要建模的模式是“對稱”/“反對稱”和“組合”關系。
4. WN18RR:WN18 的子集,刪除了“逆”關系,因此該數據集上主要的模式也是“對稱”/“反對稱”和“組合”關系。
超參數
使用網格搜索設置超參數的范圍:嵌入維度? k∈{125,250,500,1000},批量大小 b∈{512,1024,2048},自我對抗負采樣 α∈{0.5,1.0},固定間隔? γ∈{3,6,9,12,18,24,30},不需要進行正則化,因為固定間隔 γ 可以防止模型過擬合。
評估
通過以下過濾設置評估鏈路預測的性能:將測試三元組與其它所有未出現在訓練集、驗證集、測試集中的候選三元組進行排名,候選三元組通過替換頭尾實體生成?(h',r,t)?或?(h,r,t'),使用平均排名(MR)、平均倒數排名(MRR)和 H@N 作為評估標準。
基準
除了 RotatE,提出該模型的一種變形作為基準方法:即對實體嵌入添加約束,因此距離函數變為,使用變形模型 pRotatE 的目的是為了探索 RotatE 模型沒有模數的信息只有相位信息時是如何工作的
距離函數的推導:
限制,可以重寫 h,r,t:?
因此距離函數變為:
此時,如果在 TransE 模型中的嵌入是 h', r', t',令θh=ch',θr=ch',θt=ct',C=1/c,則,這就表明了 RotatE 可以弱化成 TransE。
除了該變形方法外,還與 TransE、DistMult、ComplEx、HolE 以及 ConvE 對比。
結果 1
任務:鏈路預測
分析:
1. 在 FB15k 數據集上,主要的關系模式是對稱/反對稱和逆,ComplEx 比 TransE 表現更好,因為 ComplEx 可以推導這幾種關系,而 TransE 不能推導對稱模式;另外 DistMult 在該數據集上 H@10 結果最好,盡管它不能建模反對稱和逆模式??赡苁怯捎谠?FB15k 上的大多數關系,其頭實體和尾實體是不同的,盡管 DistMult 會給 (h,r,t) 和 (t,r,h) 相同的得分,(t,r,h)?不可能是有效的,因為 t 的實體類型不匹配 h 的頭實體類型。例如:(Obama, nationality, USA) 和 (USA, nationality, Obama) 會有相同的得分,但是 (USA, nationality, Obama) 可以很簡單地被預測出是假的,因為 USA 不會是 nationality 的頭實體。
2. 在 WN18 數據集上,其他結果與 FB15k 相同,但是 DistMult 結果并沒有很好,因為它本身不能建模反對稱和逆模式,并且在該數據集上幾乎所有實體的單詞都屬于同一種實體類型,與 FB15k 的情況不同。
3, 在 FB15k-237 數據集上,主要的關系模式是組合,可以看到 TransE 比 ComplEx 的結果要好,因為 TransE 是可以推導組合模式的,而 ComplEx 不能推導組合模式;
4. 在 WN18RR 上,主要的關系模式是對稱,因此 TransE 的結果不是很好。
另外:在 FB15k-237 和 WN18RR 上 pRotatE 比 RotatE 的結果差距更明顯,這也表明了模數對建模和推導“組合”關系更加重要。
結果 2
任務:在 Countries 數據集上推導關系模式
Countries 數據集被設計用來顯示地測試用于“組合”模式建模和推理的鏈路預測的能力,它包含 2 種關系 (neighborOf、locatedIn),272 個實體(244 個國家,5 個地區和 23 個子地區)。
和一般的知識圖譜中的鏈路預測不同,在該數據集上的查詢通常是這種形式:locatedIn(c,?),答案通常是 5 個地區之一。在該數據集上執行 3 個任務,每個任務都需要推導長度和困難逐步增加的組合模式,例如:S2 任務要求推導以下組合模式:
S3 任務要求最復雜的關系模式推導:
使用 AUC-PR 度量評估,結果如下:
結果?3
任務:隱式關系模式推導,忽略關系嵌入的具體位置,只通過繪制關系嵌入中每一個元素的相位直方圖表示結果。
對稱:該模式下要求關系具有性質:r°r=1,則結果為 ri=±1,在 WN18 上訓練 500 維的 RotatE,下圖給出了關系 similar_to 的嵌入相位直方圖,可以發現嵌入相位是 π,0,2π,這也表明了 RotatE 模型可以很好的推導對稱模式;可以用 hypernym(上位詞-反對稱)作為一個補充反例。
逆:這種模式要求一對逆關系是共軛的,在WN18上訓練模型,下圖是逆關系對 r1=hypernym 和 r2=hyponym 的嵌入相位圖,兩者相位相加是 0 或 2π 就可以表示。
組合:這種模式要求組合關系的相位是另外兩個關系相位的加,在 FB15k-237 上訓練 1000 維的 RotatE 模型,如下圖所示:
結果 4
任務:比較不同的負采樣技術,包括“均勻取樣”、“KBGAN 采樣(使用 ComplEx 作為負樣例生成器)”、“自我對抗采樣”。
使用基于間隔的排序準則(margin-based ranking criterion)重新實現了 50 維的 TransE 模型,在 FB15k-237、WN18RR、WN18 上使用自我對抗負采樣技術評估性能:
為了進一步證明 RotatE 的有效性,進一步設置實驗:使用具有自我對抗負采樣技術的 TransE 和 ComplEx 與 RotatE 模型在相同的設置下進行對比:
?
結果 5
進一步研究 RotatE 模型在不同關系類型上的性能:1-N、N-1 和 N-N。在 FB15k 的結果如下表:
?
其中除了 TransEh 和 ComplEx 方法,還添加了 KG2E_KL 方法進行對比,它是一種知識圖嵌入方法的概率框架,旨在用 TransE 模型對知識圖中實體和關系的不確定性進行建模,并且發現這種方法始終具有較好的性能,這也展示了在知識圖譜中建模不確定性的重要性。
總結
這篇論文方法很新穎,主要做出了以下幾點貢獻:
1. 關注知識圖譜中的“關系”模式,不是關系路徑,將圖中的關系總結為了“對稱”“反對稱”、“逆”、“組合”三種關系模式;
2. 利用復數空間,將實體表示為負向量,關系表示為復向量空間中的“旋轉”,并且證明了“旋轉”可以完全匹配三種關系模式;
3. 另外將自我對抗負采樣技術與提出的模型相結合,得到了很好的實驗結果。
4. 論文里給出的實驗很全面,最后還驗證了 RotatE 模型在多種關系類型上的有效性。
我覺得還有一些不足之處:
1. 論文最后只給出了使用自我對抗負采樣技術的 RotatE 模型的實驗結果,雖然也使用了具備自我對抗負采樣技術的其它方法進行對比,但是沒有給出不具備這種負采樣技術的 RotatE 模型的實驗結果,無法明確的比較使用“旋轉”的有效性。
2. 論文在分析幾種模型對三種關系模式的表達能力時,對 ComplEx 模型無法表達“組合”模式的解釋十分欠缺,因為 RotatE 模型和 ComplEx 模型都是在復空間中,所以希望對此有更充分的解釋。
3. 文中提到了“TorusE”模型,雖然解釋了兩篇論文的動機不同,但是實驗中沒有進行對比。
點擊以下標題查看更多往期內容:?
圖神經網絡綜述:模型與應用
ACL 2019 | 基于知識增強的語言表示模型
ACL 2019 | 基于上下文感知的向量優化
基于小樣本學習的意圖識別冷啟動
復旦大學邱錫鵬:詞法、句法分析研究進展綜述
ACL 2019?| 句對匹配的樣本選擇偏差與去偏方法
深度長文:NLP的巨人肩膀(上)
NLP 的巨人肩膀(下):從 CoVe 到 BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的ICLR 2019 | 基于复杂空间关系旋转的知识表示方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 岗位内推 | 微软亚洲互联网工程院自然语
- 下一篇: 线下沙龙 × 上海 | 小身材大能量!用