Error detection in Knowledge Graphs: Path Ranking, Embeddings or both?-学习笔记
Error detection in Knowledge Graphs: Path Ranking, Embeddings or both?
PPT
知識圖中的錯誤檢測:路徑排名,嵌入還是兩者?
Problem Formulation
首先,將知識圖G定義為一組三元組。 每個三元組都遵循(s,r,o)的形式,其中(s,o)∈E是實體,而r∈R是綁定它們的關(guān)系。
假設知識圖G也包含一定比例的噪聲N%,這表示G中的三元組中有N%是錯誤的。
?這些錯誤的三元組本質(zhì)上是對象s與對象o(兩者均為E)之間的錯誤邊緣,關(guān)系r∈R將它們連接在一起。
?因此,論文的目標是找到一種方法來查明G中的這些錯誤。
Methods Employed
PRA啟發(fā)式算法,在錯誤檢測的上下文中使用此,
該算法的概念是將這些路徑用作確定給定三元組是否為噪聲的特征。
PaTyBRED使用路徑作為特征,將路徑定義為關(guān)系r1→r2→...→rn的序列。
如果存在實體x1,x2,...,xn-1,則對象s和對象o可以通過路徑P(s,o)連接,使得P(s,o)= r1(s,x1)→ ...→ri(xi-1,xi)→...→rn(xn-1,o)。
修剪路徑后,將填充NR功能表,其中NR是關(guān)系數(shù)。
在使用NR個不同的分類器(每個關(guān)系一個)之后,為每個三元組確定一個值[0-1]的置信度分數(shù),而表示噪聲的分數(shù)較低。
給定三元組(s,r,o)是正確的,則主題s和關(guān)系r可以與對象o連接,且誤差很小,這意味著s + r≈o。
TransE遞歸地最小化使用上述能量函數(shù)和負采樣進行訓練的成對評分函數(shù)
其中l(wèi)1 | 2表示L1范數(shù)或L2規(guī)范。主體,關(guān)系和客體之間的擬合度越高,能量函數(shù)的值越小。實體和關(guān)系的嵌入是通過培訓學習的。
其中E + = E(s,r,o)是來自數(shù)據(jù)集S +的正三元組,E- = E(s`,r,o`)是通過隨機采樣生成的來自負集S`的負三元組的能量函數(shù)得分,而γ是余量的超參數(shù)。
?[x] +表示x的正部分,
因為此損失函數(shù)為最大余量。
認知感知的KRL框架,在TransE模型的成對損失函數(shù)中注入了三元組置信度C(s,r,o),旨在學習更好的知識表示。
三元組置信度C( s,r,o)度量將模型的能力最高保持三倍,當C(s,r,o)較大時,損失函數(shù)受特定三元組的影響很大,而不是分數(shù)較小的三元組。
C(s,r,o)的值通過局部三元組置信度(LT)度量獲取局部特征,并通過先驗路徑置信度(PP)和自適應路徑置信度(A??P)捕獲全局特征。
在評估中,除CKRL外,還使用了PTransE方法,這是CKRL方法的前身,它使用路徑來引導嵌入,其方式與CKRL不同。
提出了路徑排序引導嵌入(PRGE)的這種混合方法。
PRGE方法概述。
路徑置信算法產(chǎn)生置信度: 檢索三元組之間的路徑,訓練路徑特征分類器,產(chǎn)生三元組的路徑排名分數(shù)
通過置信度分數(shù)指導嵌入: 嵌入能量函數(shù)中的路徑排名得分,產(chǎn)生圖形嵌入
從CKRL損失函數(shù)可以明顯看出,TransE能量函數(shù)和CKRL置信度度量處于同一數(shù)量級。置信度分數(shù)值將在訓練過程中影響每個主題,對象和關(guān)系嵌入的程度。
利用置信度評分和成對的最大利潤損失函數(shù)(2)在訓練嵌入過程中發(fā)揮的作用。
將CKRL的三元組置信度C(s,r,o)度量替換為路徑排序方法的置信度度量P(s,r,o),同時添加一個參數(shù)λ以縮放路徑排名值的重要性.
Experiments
WN18:WN18數(shù)據(jù)集是Wordnet的子集,并被用作多項研究的基準,Wordnet是一個英語數(shù)據(jù)庫,可以看作是字典,也可以是同義詞庫。
FB15k:Freebase的子圖,Freebase是一個大規(guī)模的協(xié)作知識庫,其中包含有關(guān)現(xiàn)實世界的一般事實。
為了證明在實際應用中對錯誤檢測方法的需求,嘗試了在iASiS項目的背景下創(chuàng)建的知識圖譜。為了滿足項目的需求,使用自動工具從PubMed1中與癡呆(Dementia)癥相關(guān)的出版物摘要中提取了生物醫(yī)學實體之間的關(guān)系。
需要KG中存在噪聲。
生成了具有不同百分比噪聲水平的新數(shù)據(jù)集,以模擬自動構(gòu)造的現(xiàn)實世界知識圖。
通過破壞s或o來產(chǎn)生一個嘈雜的噪聲。
對于FB15K知識圖,其中噪聲的生成受到限制,因為新的主題s`或?qū)ο髈`應該以相同的關(guān)系r出現(xiàn)在數(shù)據(jù)集中。此約束集中于針對任何方法生成更難,更混亂的噪聲。
相反,在WN18和癡呆癥KGs上進行了隨機抽樣,沒有任何限制,以比較和對比不同噪聲類型的不同方法和數(shù)據(jù)集。
出于訓練目的,所有錯誤都被標記為正值。
這意味著對方法的評估將基于它們對每個KG發(fā)現(xiàn)的隱藏錯誤的有效性。
評估協(xié)議。
基于此能量函數(shù)得分的所有三元組。 三元組的能量值的值越小,則三元組的有效性越高。
希望錯誤的三元組比初始正確的三元組具有更大的價值。
?為了衡量這一點,使用濾波后的平均排名(fMR)和濾波后的平均倒數(shù)排名(fMRR)。
在將能量函數(shù)得分在[0-1]區(qū)間內(nèi)歸一化之后,使用ROC曲線下面積(AUC)進一步檢查算法將噪聲分類為錯誤的程度。
?值接近0表示正確的三元組,而值接近1表示錯誤的三元組。對于fMR,fMRR和AUC的值越低越好。
根據(jù)每個數(shù)據(jù)庫的比率估算的錯誤數(shù)
關(guān)于PaTyBRED,作者強調(diào),最大路徑長度(從主體到對象所需的最大跳數(shù))設置為2。每長度的最大路徑數(shù)設置為1000。
在所有嵌入方法中,使用d = 50作為嵌入尺寸。
由于CKRL和TransE使用此特定值,因此將裕度γ設置為1.0,并使用值{0.001,0.01,0.05}測試學習率。
盡早停止使用以確定最佳模型。
關(guān)于PRGE方法的標度值λ,使用λ= 5,得出在搜尋一小部分可能值之后,在所有資料集上取得最佳結(jié)果。
錯誤檢測實驗。
1)WN18數(shù)據(jù)集:表3可以看出,提出的PRGE規(guī)模化方法在所有其他方法上的表現(xiàn)均優(yōu)于其他方法
錯誤檢測實驗。
2)FB15k數(shù)據(jù)集:在錯誤檢測中,PaTyBRED的性能比幾乎任何基本的嵌入方法都要好,這表明此處潛在的主要因素是數(shù)據(jù)集大小(請參見表1)和不同的錯誤推算方法。但是,PRGE縮放方法在fMRR指標上表現(xiàn)更好,表明它可以將明顯的錯誤三元組與其他三元組更好地分開。此外,PRGE縮放方法的性能要優(yōu)于所有其他基于嵌入的方法。
錯誤檢測實驗。
3)癡呆癥數(shù)據(jù)集:首先,如表1和5.1所示,鑒于可用實體和關(guān)系的數(shù)量,知識圖非常稀疏。此外,由于該數(shù)據(jù)集在創(chuàng)建過程中會自動進行提取,因此甚至在噪聲插補過程之前也存在噪聲。這樣,實際噪聲水平遠高于其他數(shù)據(jù)集。因此,鑒于連接失真和實際噪聲水平高得多,預計癡呆癥數(shù)據(jù)集將提出更具挑戰(zhàn)性的錯誤檢測任務。
從表5中可以看出,可以發(fā)現(xiàn)對于所有方法來說,錯誤檢測都是非常困難的,而與方法和方法無關(guān)。
盡管PaTyBRED在排名指標上稍好一些,但PRGE縮放方法獲得了更好的AUC評分,這表明,在比較實際和嘈雜的三元組時,平均而言,它可以比其他模型表現(xiàn)更好。
隨著噪聲比的增加,它也可以更好地擴展,這在WN18數(shù)據(jù)集中也可以看到。在N3數(shù)據(jù)集中,PRGE可以比每種方法獲得更好的fMR評分,這表明在存在大量噪聲的情況下(大多數(shù)自動生成的KG幾乎都是這種情況),它可以比最新方法更好。
4)噪聲的影響:當噪聲水平從N1上升到N3時,無論所有表中的數(shù)據(jù)集如何,所有模型的性能都會下降。但是,PRGE的模型最健壯,尤其是與其他嵌入方法相比時,其性能波動要小得多。
5)PRGE縮放效果:λ縮放的PRGE方法比未縮放的方法效果更好。
6)PTransE性能:PTransE的性能都比TransE差。
兩個主要優(yōu)點:?模塊化:所提出的PRGE方法與潛在的能量函數(shù)和三重評分機制無關(guān)。
?????????????????????? ?魯棒的嵌入:與PRA方法相反,后者僅對每個三元組提供一個置信度分數(shù),而PRGE方法將生成由該置信度分數(shù)訓練和指導的嵌入。
三元組分類實驗:證明抗噪嵌入在下游任務中的有用性,為了分類三元組是否有效,針對每個關(guān)系r引入了一個閾值τr。
隨著噪聲比變大,PRGE方法的性能要優(yōu)于其他方法。
PRGE縮放方法始終優(yōu)于CKRL和PTransEonall噪聲,表明使用路徑排名分數(shù)來訓練嵌入會產(chǎn)生更好的結(jié)果。
在癡呆癥數(shù)據(jù)集上也觀察到了同樣的情況,在所有噪聲水平上,PRGE-Scaled的表現(xiàn)均優(yōu)于CKRL,PTransE和PRGE。
最終,可以看到,在嵌入的訓練過程中,利用PRGE框架合并錯誤估計分數(shù),實際上對生成噪聲魯棒嵌入的其他下游任務有所幫助。
癡呆癥數(shù)據(jù)集的定性結(jié)果
對模型給出的預測進行了定性分析。
進行穿刺以檢測知識圖中的實際噪聲。
首先,如模型所預測的,獲取了得分最高的前100個三元組。還從發(fā)現(xiàn)這些三元組的出版物中獲取了準確的文本摘要。
向三位自然語言處理和生物信息學領域的人類專家介紹了這些三元組以及相應的文本。要求他們在給定相應文本內(nèi)容的情況下評估三元組的質(zhì)量,以及提取的信息有多有用。
注釋者評估的結(jié)果可以在圖2中看到。
對于所有注釋者,給定上下文,這些三元組中有超過85%似乎是錯誤的。另一方面,在所有注釋器中,得分最低的三元組中只有8%正確。這表明預測的高精度,并使對模型的評分相當確信。
這些示例展示了區(qū)分所犯錯誤類型以及在噪聲圖中進行此類分析的附加值的重要性。
癡呆癥數(shù)據(jù)集的定性結(jié)果。
錯誤類別中得分最低的三元組,每個類別中有兩個,以及錯誤的類型和從中提取的初始文本。
總結(jié)
以上是生活随笔為你收集整理的Error detection in Knowledge Graphs: Path Ranking, Embeddings or both?-学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Electric device abno
- 下一篇: 什么是褒义词(褒义词和贬义词的4个差别)