论文小综 | 知识图谱表示学习中的零样本实体研究
轉載公眾號 | 浙大KG?
本文作者| 耿玉霞,浙江大學在讀博士,主要研究方向為知識圖譜、零樣本學習及可解釋性
前言
隨著知識圖譜表示學習算法的蓬勃發展,在各個領域中都得到了廣泛的應用,如推薦系統、知識問答等,以及知識圖譜自身的補全等任務。表示學習算法將知識圖譜中的實體和關系都映射到低維向量空間,獲取實體和關系的向量表示,同時保留圖譜中的結構信息和語義信息。然而,現有的表示學習算法只能對出現在訓練集中的實體及關系進行表示,對于測試時新出現的實體/關系,模型可能需要重新進行訓練。但知識圖譜的增長是快速的,隨時都會有一些新增的實體/關系,每次都重新訓練顯然是不現實的。
近年來,不少工作將注意力投放在利用實體/關系的一些外部特征幫助學習新實體/新關系的表示,因此,本文對一些處理新實體(即zero-shot entity)的工作進行了梳理,根據其外部特征的不同,主要分為基于文本描述的方法和基于鄰居連接的方法,下面將分別對這些方法進行介紹。
注意的是,本綜述中的文章主要面向知識圖譜中新出現的實體,也有不少工作關注圖譜中新出現的關系,但不在此文中贅述。如果各位讀者感興趣可在留言區留言,后續會考慮對相關工作進行梳理和介紹。
基于文本描述
基于文本描述的學習方法主要依賴自然語言層面表達的相似性建立實體之間的聯系。這類方法通常要求三元組中的每個實體都有各自的描述文本,如下圖所示,并且考慮如何在原本知識圖譜表示學習的模型中融入實體的文本信息,代表性的文章有以下3篇。
知識圖譜中的三元組及實體描述文本
DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions
發表會議:AAAI 2016
論文鏈接:
https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12216/12004
這篇論文的出發點是考慮如何在知識圖譜的表示學習算法如TransE等中融入實體的文本描述信息,以此增強實體的表示能力,使得實體的表示在保留結構信息的同時,更好地融入實體的文本信息。同時,該文本信息可以幫助泛化到zero-shot 實體,學習這些新實體的表示。
具體地,模型主要包含四個損失函數:第一個損失函數 Es 主要學習實體結構層面的表示,以TransE為例,Es=||h_s+r-t_s||;第二個損失函數ED主要學習實體文本層面的表示,ED= ||h_d+r-t_d|| 使其文本層面的表示也滿足TransE的約束。另外,作者也設計了兩個交叉的損失函數:EDS = ||h_d+r-t_s||?和 ESD = ||h_s +r - t_d|| ,使得結構層面的表示和文本層面的表示互補。
實驗時,結構層面的表示可以通過TransE等預訓練獲得,得到的表示可用于監督文本表示的學習。具體的,作者提出了兩個文本編碼的方法。一是通過抽取文本關鍵詞并結合詞向量得到文本的表示,另一個是使用CNN模型捕獲文本中更豐富的特征信息。作者在后續的實驗中也對比了兩種方法的優缺點。
數據集統計
作者基于FB15K構造了一個包含zero-shot entity的數據集FB20K,數據集中涉及4種類型的測試數據,如上圖所示,其中,e-e表示頭尾實體均出現在訓練集中,d-e、e-d分別表示測試三元組中的頭實體、尾實體為新實體(即沒有出現在訓訓練集中),d-d表示頭尾實體均為新實體。實驗結果如下表所示,相比部分出現在訓練集中的實體仍然使用基于結構學到的表示(Partial-CBOW/CNN),基于文本得到的表示更能提升模型在zero-shot場景中的預測能力。
在FB20K上的實驗結果
ConMask: Open-World Knowledge Graph Completion
發表會議:AAAI 2018
論文鏈接:
https://arxiv.org/pdf/1711.03438.pdf
這篇論文主要考慮引入文本時帶來的噪聲問題,作者基于預測三元組中的關系信息,提出了關系特定的內容掩碼機制,用于衡量給定當前預測關系,實體的文本中哪些詞是重要的,哪些詞是不重要的,以此濾除文本中不相關的單詞。
作者首先提出了基于詞的內容掩碼機制(Maximal Word-Relationship Similarly, MWRW),采用attention機制,通過計算文本中的詞和給定關系的相似度,確定文本中每個詞的權重;隨后,作者觀察發現,目標預測實體有時候會出現在權重高的詞附近(indicator word),比如下圖中,對于三元組<Michelle Obama, spouse, Barack Obama>,attention機制學習到married與當前關系spouse很相近,反而會給予目標實體Barack Obama比較低的權重值,因此,作者提出 MCRW ——基于上下文的權重求解方法,放寬權重求解的范圍。
兩種權重求解方法圖示
基于上述掩碼機制再結合CNN模型可得到實體基于文本的表示,隨后,通過計算KG中候選目標實體和源實體表示之間的相似性,預測最終的預測結果。作者提出了兩個數據集DBpedia50k和DBpedia500k驗證模型的能力,可以看到,作者提出的ConMask在各個指標上達到了最好的結果,且擊敗了上面的DKRL模型。
模型實驗結果
注意的是,相比于DKRL在預測三元組時同時考慮結構特征和文本語義特征,本文中提出的Conmask完全依賴實體的文本特征對三元組進行補全,并進行遷移,處理預測時出現新實體的問題。
OWE: An open-world extension to knowledge graph completion?models
發表會議:AAAI 2019
論文鏈接:
https://arxiv.org/pdf/1906.08382.pdf
上述兩篇論文,DKRL在考慮文本信息時,依賴實體結構層面的特征,而ConMask在三元組預測時僅考慮文本層面的特征。因此,本文提出了基于映射的思想,通過將文本描述映射到圖結構空間,對文本語義信息和結構信息進行融合。其中,文本特征的學習和結構特征的學習是獨立的,在保留圖譜結構特征的同時,模型自身對文本資源的稀疏問題有一定的容忍性。模型結構圖如下圖所示。
兩種權重求解方法圖示
作者首先通過TransE等表示學習方法預訓練得到實體的結構特征表示,以此監督映射函數的學習。在測試時,對于一個新加入的實體,可直接通過學習好的映射函數得到新實體的表示,進而進行進一步的預測。
模型實驗結果
本文同樣也在DBpedia50k和FB20k上進行了實驗,同時也提出了自己的數據集FB15k-237-OWE。可以看到本文提出的模型OWE在DBpedia50k和FB20k兩個數據集的部分指標上均有提升,在DBpedia50k和FB20k數據集上均達到了最優。這是因為DBpedia50k和FB20k數據集中的文本通常較長,可能更適合使用CNN等模型進行特征捕獲,而FB15k-237-OWE的文本相對較短,可能更適合本文提出的使用預訓練詞向量對文本進行表示。
基于鄰居連接
相比于上述基于文本描述的方法,要求每個實體都有文本描述信息,基于鄰居連接的方法主要依賴新實體與知識圖譜中已經存在的實體存在既定的連接關系(如下圖中的紅色雙實線),即依賴這些附加的鄰居三元組,學習新出現的實體的表示。具體地,如下圖所示,在訓練時,模型只能見到灰色區域中的實體和關系并為它們學到表示(黑色實現),在測試時,對于新出現的實體(即OOKG entity),可以基于該實體與訓練好的實體之間的鄰居連接狀態(紅色雙實線)得到新實體的表示,從而預測新實體與其他實體之間是否存在某關系(綠色虛線)。相關論文介紹如下。
基于鄰居三元組學習新實體的表示
Knowledge Transfer for Out-of-Knowledge-Base Entities - A Graph Neural Network Approach
發表會議:IJCAI 2017
論文鏈接:
https://www.ijcai.org/Proceedings/2017/0250.pdf
本文主要提出利用圖神經網絡學習實體的表示。受圖神經網絡通過聚合鄰居節點的特征以學習節點的特征表示的啟發,本文同樣使用圖神經網絡聚合實體周圍的三元組以得到實體的表示,從而在測試時為新實體學到表示。具體地,每個實體的表示為:
其中,??N_head和?N_tail 分別表示當前實體作為尾實體和頭實體的鄰居三元組集合,通過轉換函數T首先對鄰居實體及關系的表示進行融合,隨后通過均值池化/最大值池化/求和池化等聚合周圍所有的鄰居表示,最終得到實體的表示。對于轉換函數T,本文中采用了Batch Normalization 操作。最后,模型通過TransE等打分函數對學習到的實體表示進行訓練。
作者采用一定的策略,基于WordNet11構造了測試數據集。在數據集構造的過程中,保證測試集中的新實體有一些鄰居三元組作為輔助幫助建立鄰居連接關系。后續論文中一些數據集構造的思路也基本延續了本文中的思路,讀者如有興趣,可閱讀原文進一步了解。下表是本文的實驗結果,相比baseline中用sum/max/avg等直接聚合鄰居實體的表示得到當前實體的表示,本文提出的方法具有一定的優越性。
模型實驗結果
LAN: Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding
發表會議:AAAI 2019
論文鏈接:
https://arxiv.org/pdf/1811.01399.pdf
本文同樣也是通過聚合實體周圍鄰居的特征得到當前實體的表示,不同的是,作者考慮在聚合時,對于當前預測的關系,不同的鄰居關系所發揮的重要性不同,以及在所有的鄰居關系中,可能存在一定的冗余。如下圖中,當預測當前實體(emerging entity)通過關系live_in連接的尾實體時,其周圍鄰居關系中,play_for可能有著更重要的作用。而在所有的鄰居關系中,某些關系可能表達的知識非常重復,比如play_for和work_as,當知道某一運動員供職于芝加哥公牛時,可以很容易地推理出他是一位籃球運動員。因此,本文提出了一個Logic Attention Network (LAN),基于關系之間的邏輯約束和attention機制為不同的鄰居指定不同的權重,進行加權聚合。
模型實驗結果
在LAN中,作者首先提出了一個粗粒度的、基于logic的權重計算方式,通過計算關系在KG中的共現情況,挖掘單個關系之間的聯系:
當關系 r1、r2 所連接的實體存在較大的重疊時,認為兩個關系之間存在一條規則。因此,給定當前預測關系q,若鄰居關系中某一關系r與q存在關聯時,賦予關系r較大的權重,而其他關系若 r' 與關系r存在較大的關聯(即存在冗余)時,將賦予關系r較小的權重,作者通過這種方式,同時將關系的不同權重以及冗余均考慮在內。基于logic的權重計算如下:
基于此,作者進一步提出了一個更細粒度的、基于attention機制的權重計算方式,通過神經網絡模型計算在給定關系時不同鄰居實體的權重,權重計算如下:
融合上述兩種權重計算,模型在融合鄰居三元組特征時,為不同的鄰居關系和實體分配不同的權重。作者也在WordNet11上進行了實驗,同時借鑒上述論文中數據集構造的思路基于FB15k構造了新的數據集,下表是在FB15k上的實驗結果。相比于均值聚合鄰居特征或使用LSTM聚合周圍鄰居表示,本文中提出的LAN網絡能更有效地捕獲鄰居關系及實體的特征信息,從而提升模型的預測能力。
模型實驗結果
Inductively Representing Out-of-Knowledge-Graph Entities by Optimal Estimation Under Translational Assumptions
論文出處:arXiv 2020
論文鏈接:
https://arxiv.org/pdf/2009.12765.pdf??
相比于前面兩篇文章中,通過網絡聚合周圍鄰居的特征,本文提出了一種更簡潔、有效的聚合思路——基于TransE等的假設通過預訓練的周圍節點的表示直接計算得到當前節點的表示,如在TransE的假設下,作為頭實體,其表示通常由尾實體和關系相減得到,而作為尾實體,其表示通常由頭實體和關系相加得到,其余類似的算法如RotatE也是如此。
基于此設定可以很容易求得當前實體的表示,考慮到當前實體的周圍鄰居有多個,作者同樣考慮對周圍鄰居進行加權聚合,權重的計算既有基于規則考慮不同鄰居關系的重要性,也有基于鄰居實體的連接度考慮不同鄰居實體的重要性。
作者同樣在LAN提出的FB15k的數據集上驗證了模型的性能,可以看到,相比于前面論文中提到的聚合方法,本文提出的聚合思路雖然簡單但卻有著不錯的效果。
模型實驗結果
此外,還有一些基于鄰居連接的方法處理預測時新出現的zero-shot entity的問題,但方法基本與上述方法類似,感興趣的讀者可以自行閱讀。
Attention-Based Aggregation Graph Networks for Knowledge Graph Information Transfer. PAKDD 2020.
Explainable Link Prediction for Emerging Entities in Knowledge Graphs. ISWC 2020.
其他
上述兩種思路更偏向于借鑒圖表示學習方面對新加入節點的處理,即考慮利用節點的特征以及節點周圍的連接關系。除此之外,也有一些方法利用KG本身的特性,如通過學習KG中與實體無關的子圖/關系結構,從而避免實體表示對知識圖譜補全等任務的影響,對于新出現的實體也能很好地處理 [1]。此外,其余也有一些工作如面向常識知識圖譜這類更容易出現zero-shot entity的圖譜進行研究 [2]。
上述文章展示了知識圖譜表示學習領域針對新出現的實體的一些主要研究思路和研究內容,可見的是,可能存在相當一部分特征還未被充分挖掘,以及當圖譜中同時存在新實體和新關系時,該利用哪些特征學習這些新實體和新關系的表示,也是值得探究的問題。也歡迎大家補充和交流。
[1] Inductive Relation Prediction by Subgraph Reasoning. ICML 2020.
[2] Inductive Learning on Commonsense Knowledge Graph Completion. arXiv 2020.
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文小综 | 知识图谱表示学习中的零样本实体研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 知识图谱上的实体链接
- 下一篇: 月圆花美 中秋快乐!