论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习
筆記整理:朱渝珊,浙江大學在讀博士,研究方向為快速知識圖譜的表示學習,多模態知識圖譜。
1.Motivation
知識圖譜是許多NLP任務和下游應用的核心,如問答、對話代理、搜索引擎和推薦系統。知識圖中存儲的事實總是以元組的形式存在,元組由一個頭實體、一個尾實體(都是知識圖中的節點)和它們之間的關系(知識圖中的邊)組成。KGEs學習知識圖中關系和實體的表示,然后用于下游任務,如預測缺失的關系。深度學習的應用使KGE取得了重大進展。盡管如此,這些方法在計算上是昂貴的,并伴隨著相當大的環境成本。
為了降低計算成本,作者引入了PROCRUSTES,一種輕量級、快速、環保的KGE訓練技術。PROCRUSTES建立在三種新技術之上。首先,為了減少批量學習的計算開銷,作者提出通過對元組之間的關系進行分組來實現批量并行化,最終實現高效的全批量學習。其次,作者轉向正交普魯克問題的一個封閉解來促進嵌入訓練,這在KGEs環境中從未被探索過。第三,為了突破帶寬瓶頸,該算法允許在沒有負樣本的情況下進行訓練。本文的主要貢獻有:
1.引入了三種新的方法來大幅減少嵌入大型復雜知識圖的計算開銷:基于關系矩陣的全批學習,KGEs的封閉形式正交普魯克分析,以及非負抽樣訓練;2.在兩個標準數據集上對13個強基線進行了系統的基準測試,結果表明該算法在幾分鐘的訓練時間和很少碳排放情況下保持了極具競爭力的性能;3.首次將實體信息和關系信息同時編碼到單個向量空間中,豐富了實體嵌入的表達性,并對可解釋性產生了新的見解。
2.Method
2.1基礎(分段embedding)
PROCRUSTES模型是建立在分段嵌入的基礎上的,這種技術已經被一些很有前途的KGE學習方法(如RotatE, SEEK,OTE)利用。與傳統的KGEs方法中每個實體只對應一個向量不同,采用分段嵌入的算法顯式地將實體表示空間劃分為多個獨立的子空間。在訓練期間,每個實體被編碼為一串解耦的子向量(即不同的段,因此得名)。例如,如Figure 1所示,對一個包含7個實體的圖進行編碼,第t個實體的嵌入是其d/ds個子向量的逐行拼接,其中d和ds分別表示實體向量和子向量的維數。采用分段嵌入允許并行處理結構上分離的子空間,從而顯著提高整體訓練速度。此外,分割嵌入還可以增強模型的整體表現力,同時大大減少矩陣計算的維數。
2.2通過關系矩陣進行全批學習
分段嵌入通過并行化元組計算來提高訓練速度。本節提出了一種基于關系矩陣的全批學習技術,它可以優化批計算,從而進一步減少訓練時間。這個想法的動機是觀察到現有的神經KGE框架都是基于由不同類型關系組成的元組構造的隨機批次進行訓練。這種訓練模式是基于隨機批處理的,雖然實現起來很簡單,但很難并行化。這是由于計算機進程調度的本質:在進程讀取和更新關系嵌入之間的間隔期間,它們很可能被其他進程修改,導致同步錯誤,從而導致意外的數據損壞,降低優化,甚至收斂問題。
為了解決這個問題,作者提出通過將包含相同關系的元組分組來構造訓練批次。組這種新策略的優勢是雙重的。首先,它自然地將原始的元級計算簡化為簡單的矩陣級算術。更重要的是,這樣可以輕松地確保每個關系的嵌入只能被單個進程訪問,完全避免了數據損壞問題。此外,它使全批學習技術(通過關系矩陣)的使用成為可能,為KGEs訓練過程的并行化提供了一個魯棒的解決方案,從而大大提高了訓練速度。這是KGE社區首次探索這種方法。
如Figure 1,首先將嵌入空間分割成段,并根據關系來排列批次。然后,對于每個訓練步,PROCRUSTES的工作流本質上被分解為m × (d/ds)個并行過程,m為關系數。設i表示關系id,j是子空間索引,所以關系i的所有三元組的頭實體的第j個子空間向量的列聯合可表示為H_(i,j),所有三元組的尾實體的第j個子空間向量的列聯合可表示為T_(i,j)。關系i的第j個子空間向量表示為R_(i,j)。最后的目標函數為:
2.3正交普魯克分析
作者仿照RotatE和OTE等工作,希望限制關系矩陣R_(i,j)是正交的。很多KGE工作用不同的方式限制正交性,例如RotatE利用歐拉定理并定義關系嵌入為公式
其中θ_(i,j) 是可學習的參數。盡管上述公式保持了正交性和簡單性,它本質上是一個ds=2的分段嵌入,但是R_(i,j)始終只有兩維,這限制了模型能力。為了克服這個問題,OTE在每個反向傳播步驟中使用Gram-Schmidt算法顯式地正交化R_(i,j) (詳見附錄)。然而,雖然這種方案適用于各種ds的范圍(即子空間向量的維度),但這在計算上非常昂貴。
作者利用所提出的全批學習的可并行性來解決計算問題。與現有處理異構關系的方法相比,PROCRUSTES在全批學習中,在每個過程中只需要優化一個R_(i,j),這是一個簡單的約束矩陣回歸任務。更重要的是,通過奇異值分解(SVD),可以得到一個封閉的解:
其中R_(i,j)^*是最適條件,在每次迭代中,PROCRUSTES可以在給定當前實體嵌入的情況下,應用上述公式找到每個關系的最優嵌入。然后,基于目標函數,PROCRUSTES再通過反向傳播更新實體的嵌入(關系嵌入不需要梯度)。以上過程不斷重復直到收斂。
由于關系嵌入的優化幾乎可以在每次迭代中立即完成, PROCRUSTES比RotatE和OTE快很多數量級。此外,相比其他KGE模型用實體嵌入更新獨立的關系嵌入,PROCRUSTES訓練的實體嵌入可以直接用于恢復關系嵌入(通過上述封閉解),這表明PROCRUSTES可以在實體空間中編碼更豐富的信息。
2.4進一步的優化策略:非負采樣機制
現有的KGE方法采用負采樣作為減少訓練時間的標準技術,但是根據生成的負樣本計算損失,僅對參數的子集進行了更新。通過作者提出的封閉式解決方案,計算梯度來更新嵌入不再是PROCRUSTES的效率瓶頸。相反,速度瓶頸是由于增加的負樣本所占用的額外帶寬。因此,對于PROCRUSTES,作者提出不采用負采樣,而是在每一輪反向傳播中只使用正樣本更新所有嵌入,以進一步優化訓練速度(附錄顯示了與采用負采樣的基線的帶寬比較)。
但是,如果不采用任何額外限制,在訓練中PROCRUSTES會陷入一個平凡最優,即L=0,此時所有的H_(i,j),T_(i,j)和R_(i,j)都是0。換句話說,這個模型完全沒有編碼。這在某種程度上并不奇怪,因為這種平凡最優往往會產生較大的梯度,從而導致這種結果。為了緩解這一退化問題,受到正交R_(i,j)的幾何意義的啟發(即,圍繞坐標原點向T_(i,j)方向旋轉H_(i,j),而不改變矢量長度),作者提出通過在每個epoch執行兩個步驟來約束所有實體到一個高維超球體:1)centering,分別轉換H_(i,j)和T_(i,j),使每個矩陣的列和為0向量(每行表示一個實體的子空間向量);2)length normalization,確保H_(i,j)和T_(i,j)的行歐幾里德范數是1。
3.Experiment
3.1數據集、基線與指標
3.1.1數據集
3.1.2Baseline
經典的TransE, DistMult, ComplEx, 以及在WN18RR和FB15k237數據集上達到最佳性能的R-GCN, ConvE, A2N, RotatE, SCAN, TuckER, QuatE, InteractE, OTE, RotH。
3.1.3評估指標
評估指標包含MRR和Hit@1、3、10。在效率方面,對比每個模型消耗的時間和二氧化碳排放量(從開始訓練到收斂)。
3.1.4實驗細節
模型的關鍵超參數是d和ds,兩個數據集的超參數分別設置為2K和20。每個模型進行最多2K個epoch的訓練,并每100個epoch之后驗證MRR是否停止增加。對于WN18RR和FB15k-237,作者報告的最佳超參數分別為固定學習率0.001和0.05 (Adam optimizer)。
3.2實驗結果
從實驗結果中可以看出本文提出的方法相較于多數現有的KGE方法在鏈接預測上有明顯提升,并且具有很快的訓練速度和低碳排放量。
3.3不同維度的影響
實驗還表明,超參數d和ds的選擇對PROCRUSTES的有效性和效率有重要影響。對于整個嵌入空間的維數,固定ds=20,設置d={100;200;400;800;1k;1:5K;2K},結果如下圖所示。隨著d的增加,性能(MRR)增加,但訓練時間也隨之增加。訓練時間的曲率在d>1K時幾乎飽和,作者以d=2K作為WN18RR和FB15k-237的最佳設置。
對于子空間嵌入的維數,固定d=2K,設置ds={2;5;10;20;25;50;100}。在ds達到20或25之前,模型性能快速提升,但之后隨著網絡學習能力的降低,模型緩慢退化。巧合的是,當ds=20時,訓練速度也達到了頂峰,作者以ds=20作為WN18RR和FB15k-237的最佳設置。
3.4解釋實體嵌入
作者對訓練的實體嵌入進行可視化,即使用主成分分析PCA對嵌入進行降維,將實體嵌入的維數從2K降為3,下圖顯示了可視化結果,從中我們可以看到一個有6個“手臂”的圖表。首先,同一臂上的實體在語義上是相似的,或者說這些實體屬于同一個類別。具體來說,A臂上的實體是位置,B臂上的實體是生化術語,C臂上的實體是軍事相關的實體。D、E、F臂上的實體分別是指法律概念、植物學概念和職業概念。第二,手臂上的每個簇/位置之間存在顯著差異:對于A臂,A1是城市的實體,如斯圖加特、休斯頓、南寧;A2是關于河流、山脈等實體的;A3為國家或地區實體。同樣,B1主要由醫藥名稱組成,B2中的實體明顯與化學術語有關。
4.Summery
本文提出了一種新的KGE訓練框架,PROCRUSTES,它是環保的、高效的,可以產生非常有競爭力甚至接近最先進的性能。大量實驗表明,該方法是有價值的,特別是它能夠顯著地減少訓練時間和碳排放。
歡迎有興趣的同學閱讀原文。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 | CCKS2020 第十四届
- 下一篇: 论文浅尝 | 提取计数量词丰富知识库