论文浅尝 | 基于属性嵌入的知识图谱实体对齐
論文筆記整理:王中昊,天津大學(xué)碩士,方向:自然語言處理。
來源:AAAI2019
論文鏈接:?https://doi.org/10.1609/aaai.v33i01.3301297
?
概述
知識(shí)圖譜之間的實(shí)體對(duì)齊的任務(wù)目標(biāo)是去找到那些在兩個(gè)不同的知識(shí)圖譜上表示現(xiàn)實(shí)世界相同的實(shí)體。最近,人們提出了基于嵌入的模型應(yīng)用于實(shí)體對(duì)齊任務(wù)。這種模型建立在知識(shí)圖譜嵌入模型的基礎(chǔ)上,該模型學(xué)習(xí)實(shí)體嵌入以捕獲同一知識(shí)圖譜中實(shí)體之間的語義相似性。而作者提議出一種能夠?qū)W習(xí)嵌入進(jìn)而捕捉不同知識(shí)圖譜中實(shí)體間相似性的模型。這種模型有助于將不同知識(shí)圖譜中的實(shí)體對(duì)齊,從而實(shí)現(xiàn)多個(gè)知識(shí)圖譜的集成。模型利用知識(shí)圖譜中存在的大量屬性三元組,來生成attribute character embeddings。attribute character embeddings基于它們的屬性,將兩個(gè)知識(shí)圖譜上的實(shí)體嵌入通過計(jì)算實(shí)體之間的相似度進(jìn)而轉(zhuǎn)移到同一空間。與此同時(shí),模型也使用傳遞性規(guī)則來進(jìn)一步豐富實(shí)體的屬性數(shù)目,以增強(qiáng)attribute character embeddings。
?
?
模型和方法
?
模型綜述
該模型框架使用基于嵌入的模型,如上圖所示。該框架由謂詞對(duì)齊、嵌入學(xué)習(xí)和實(shí)體對(duì)齊三部分模塊組成。由于基于嵌入的實(shí)體對(duì)齊要求兩個(gè)知識(shí)圖譜的嵌入(關(guān)系和實(shí)體嵌入)落在同一向量空間中。為了使關(guān)系嵌入有一個(gè)統(tǒng)一的向量空間,我們基于謂詞相似度(即謂詞對(duì)齊)合并了兩個(gè)知識(shí)圖譜。
謂詞對(duì)齊模塊(后文將詳細(xì)介紹)將查找部分相似的謂詞,例如dbp:bornIn與yago:wasBornIn,并使用統(tǒng)一的命名方案(例如:bornIn)來重命名它們?;谶@個(gè)統(tǒng)一的命名方案,我們將G1和G2(見上圖)合并成為G1_2中。然后,將合并后的圖G1_2分為一組關(guān)系三元組Tr和一組屬性三元組Ta,用于后續(xù)的嵌入學(xué)習(xí)。
嵌入學(xué)習(xí)模塊(后文將詳細(xì)介紹)利用結(jié)構(gòu)嵌入和屬性嵌入共同學(xué)習(xí)兩個(gè)知識(shí)圖譜的實(shí)體嵌入。使用上文中生成的關(guān)系三元組Tr來進(jìn)行結(jié)構(gòu)嵌入的學(xué)習(xí),而使用屬性三元組Ta來進(jìn)行屬性嵌入的學(xué)習(xí)。最初,來自G1和G2的實(shí)體的結(jié)構(gòu)嵌入,由于兩個(gè)知識(shí)圖譜中的實(shí)體使用不同的命名方案表示,因此落入不同的向量空間。相反的,從屬性三元組Ta中學(xué)習(xí)到的屬性嵌入可以落在同一向量空間中。這是通過從屬性字符串中學(xué)習(xí)字符嵌入來實(shí)現(xiàn)的,即使屬性來自不同的知識(shí)圖譜(我們稱之為attribute character embeddings),也可以是相似的。然后,利用得到的attribute character embeddings將實(shí)體的結(jié)構(gòu)嵌入到同一向量空間中,使得實(shí)體嵌入能夠從兩個(gè)知識(shí)圖譜中獲取實(shí)體間的相似性。例如,假設(shè)我們有三元組<lgd:240111203,:country,lgd:51477>和<lgd:51477,:label, "Germany">來自G1,以及<dbp:kromdorf,:country,dbp:Germany>和<dbp:Germany,:label, "Germany">來自G2。attribute character embeddings允許兩個(gè)實(shí)體lgd:51477和dbp:Germany具有相似的向量表示,因?yàn)檫@兩個(gè)實(shí)體具有相似的屬性值“Germany”。然后,實(shí)體lgd:240111203和dbp:kromdorf的結(jié)構(gòu)嵌入也將相似,因?yàn)檫@兩個(gè)實(shí)體共享相同的謂詞,并且有兩個(gè)具有相似的向量表示的尾部實(shí)體lgd:51477和dbp:Germany,。
一旦我們獲得了G1和G2中所有實(shí)體的嵌入,實(shí)體對(duì)齊模塊(后文將詳細(xì)介紹)就會(huì)發(fā)現(xiàn)每一對(duì)<h1,h2>,其中h1∈G1和h2∈G2的相似性得分都高于閾值β。為了進(jìn)一步提高模型的性能,作者所建立的模型使用關(guān)系傳遞性規(guī)則來豐富G1和G2中所有實(shí)體的屬性,進(jìn)而幫助構(gòu)建更健壯的屬性嵌入以計(jì)算實(shí)體之間的相似性。
?
1.1 謂詞對(duì)齊模塊
?
謂詞對(duì)齊模塊通過使用統(tǒng)一的命名方案來重命名兩個(gè)知識(shí)圖譜中的謂詞,從而合并兩個(gè)KG,以便為關(guān)系嵌入提供統(tǒng)一的向量空間。事實(shí)上,謂詞有命名約定,例如rdfs:label、geo:wgs84pos#lat和geo:wgs84 pos#long。除了命名c約定之外,還有部分匹配的謂詞,例如dbp:diedIn vs.yago:diedIn和dbp:bornInvs.yago:wasBornIn。謂詞對(duì)齊模塊找到這些謂詞,并使用統(tǒng)一的命名方案(例如:diedIn和:bornIn)重命名它們。為了找到部分匹配的謂詞,作者通過計(jì)算謂詞URI最后一部分的編輯距離(例如bornIn與wasBornIn),并將0.95設(shè)為相似度閾值。
?
1.2嵌入學(xué)習(xí)模塊
?
結(jié)構(gòu)嵌入
?
作者將嵌入學(xué)習(xí)更多地集中在對(duì)齊的三元組(即具有對(duì)齊謂詞的三元組)上,將TransE學(xué)習(xí)用于知識(shí)圖譜之間實(shí)體對(duì)齊的結(jié)構(gòu)嵌入。并且通過添加權(quán)重α來控制三元組上的嵌入學(xué)習(xí)。為了學(xué)習(xí)結(jié)構(gòu)嵌入,在作者的模型中,最小化了以下目標(biāo)函數(shù)JSE
其中Tr是有效關(guān)系三元組的集合,T′r是損壞關(guān)系三元組的集合,γ是一個(gè)邊距超參數(shù),count(r)是關(guān)系r的出現(xiàn)次數(shù),|T |是KG合并后,G1_2中三元組的總數(shù)。通常,對(duì)齊謂詞的出現(xiàn)次數(shù)高于不對(duì)齊謂詞,因?yàn)閷?duì)齊謂詞同時(shí)出現(xiàn)在兩個(gè)知識(shí)圖譜中,因此允許模型從對(duì)齊的三元組中學(xué)習(xí)更多內(nèi)容。
?
屬性嵌入
?
就像TransE一樣,對(duì)于屬性字符嵌入,我們將謂詞r解釋為從頭實(shí)體h到屬性a的翻譯。但是,同一個(gè)屬性a可能以不同的形式出現(xiàn)在兩個(gè)知識(shí)圖譜中,例如,50.9989 vs.50.998888889作為實(shí)體的緯度;“Barack Obama”vs.“Barack Hussein Obama”作為人名,等等,我們使用復(fù)合函數(shù)來編碼屬性值,并將屬性三元組中每個(gè)元素的關(guān)系定義為h+r≈fa(a)。這里,fa(a)是一個(gè)復(fù)合函數(shù),a是屬性值a={c1,c2,c3,…,ct}的字符序列。合成函數(shù)將屬性值編碼為單個(gè)向量,并將類似的屬性值映射到類似的向量表示。我們定義了三個(gè)組合函數(shù)如下:
Sum compositional function (SUM)。第一個(gè)復(fù)合函數(shù)定義為屬性值的所有字符嵌入的總和:
其中c1、c2、…、ct是屬性值的字符嵌入。
?
LSTM-based compositional function (LSTM)。為了解決SUM問題,作者提出了一種基于LSTM的組合函數(shù)。此函數(shù)使用LSTM網(wǎng)絡(luò)將字符序列編碼為單個(gè)矢量。并且使用LSTM網(wǎng)絡(luò)的最終隱藏狀態(tài)作為屬性值的向量表示:
其中,flstm是由Kimetal定義的LSTM網(wǎng)絡(luò)(2016年)。
?
N-gram-based compositional function (N-gram)。作者進(jìn)一步提出了一個(gè)基于N-gram的組合函數(shù)作為解決SUM問題的替代方法。這里,作者使用屬性值的n-gram組合求和。???
其中N表示n-gram組合中使用的n的最大值(在作者的實(shí)驗(yàn)中n=10),t是屬性值的長(zhǎng)度。
?
為了學(xué)習(xí)屬性字符嵌入,作者將以下目標(biāo)函數(shù)JCE最小化:
其中Ta是來自訓(xùn)練數(shù)據(jù)集的有效屬性三元組,而T′a是損壞屬性三元組的集合(a是G中的屬性集合)。通過將頭實(shí)體替換為隨機(jī)實(shí)體或?qū)傩蕴鎿Q為隨機(jī)屬性值,將損壞的三元組用作負(fù)樣本。要注意的是,這里的f(ta)是基于頭部實(shí)體h的嵌入、關(guān)系r的嵌入和使用合成函數(shù)fa(a)計(jì)算的屬性值的向量表示的似然性得分。
下面要進(jìn)行結(jié)構(gòu)嵌入與屬性字符嵌入的聯(lián)合學(xué)習(xí),作者使用attribute character embedding(hce) ,通過最小化以下目標(biāo)函數(shù)JSIM,將結(jié)構(gòu)嵌入(hse)轉(zhuǎn)移到同一向量空間中:
這里cos(hse,hce)是向量hse和hce的余弦相似性。結(jié)構(gòu)嵌入將基于實(shí)體關(guān)系捕獲兩個(gè)知識(shí)圖譜之間實(shí)體的相似性,而屬性字符嵌入將基于屬性值捕獲實(shí)體的相似性。結(jié)構(gòu)嵌入和屬性字符嵌入聯(lián)合學(xué)習(xí)的總體目標(biāo)函數(shù)是:
??????????????
?
1.3實(shí)體對(duì)齊模塊
?
由于結(jié)構(gòu)嵌入和屬性字符嵌入的聯(lián)合學(xué)習(xí),使得G1和G2的相似實(shí)體具有相似的嵌入。因此,生成的嵌入可用于實(shí)體對(duì)齊。我們計(jì)算下列實(shí)體對(duì)齊方程:
給定一個(gè)實(shí)體h1∈G1,我們計(jì)算h1與所有實(shí)體h2∈G2之間的相似性。<h1,hmap>是預(yù)期的對(duì)齊實(shí)體對(duì)。我們使用相似性閾值β來過濾太不相似而無法對(duì)齊的成對(duì)實(shí)體。
?
?
1.4通過傳遞性規(guī)則豐富三元組
?
盡管嵌入的結(jié)構(gòu)隱式地學(xué)習(xí)了關(guān)系傳遞信息,但是顯式地包含這些信息會(huì)增加每個(gè)實(shí)體的屬性和相關(guān)實(shí)體的數(shù)量,這有助于識(shí)別實(shí)體之間的相似性。例如,給定三元組<dbp:EmporiumTower,:locatedIn,dbp:London>和<dbp:London,:country,dbp:England>,我們可以推斷dbp:EmporiumTower與dbp:England有關(guān)系(即“:locatedInCountry”)。實(shí)際上,這些信息可以用來豐富相關(guān)實(shí)體dbp:Emporium Tower。作者將一跳傳遞關(guān)系處理如下,給定傳遞三元組<h1,r1,t>和<t,r2,t2>,我們將r1.r2解釋為從頭實(shí)體h1到尾實(shí)體t2的關(guān)系。因此,這些傳遞三元組之間的關(guān)系被定義為h1+(r1.r2)≈t2。通過用r1.r2代替關(guān)系向量r,也增強(qiáng)了上文提到的嵌入模型的最小化目標(biāo)函數(shù)。
實(shí)驗(yàn)
作者在四個(gè)真實(shí)的KG上評(píng)估了他們的模型,包括DBpedia(DBP)(Lehmann等人。2015年),LinkedGeoData(LGD)(Stadler等人。2012年),Geonames(GEO)2和YAGO(Hoffart等人。2013年)。作者使用提出的模型,將DBP的實(shí)體分別與LGD、GEO和YAGO的實(shí)體對(duì)齊。將模型發(fā)現(xiàn)的對(duì)齊實(shí)體與三個(gè)地面真值數(shù)據(jù)集(DBP-LGD、DBP-GEO和DBP-YAGO)中的對(duì)齊實(shí)體進(jìn)行比較,這三個(gè)數(shù)據(jù)集分別包含了DBP和LGD、GEO和YAGO之間的對(duì)齊實(shí)體。
作者使用hits@k(k=1,10)(即正確對(duì)齊的實(shí)體在前k個(gè)預(yù)測(cè)中所占的比例)和正確(即匹配)實(shí)體的排名的平均值來評(píng)估模型的性能。較高的hits@k和較低的MR表明該模型的性能更好。對(duì)于來自DBP的每個(gè)實(shí)體,作者使用公式計(jì)算與來自另一個(gè)KG(LGD/GEO/YAGO)的實(shí)體的相似性得分。如表1所示,作者提出的模型始終優(yōu)于基線模型,基于MR的t檢驗(yàn),p<0.01。同時(shí),MTransE和JAPE依賴于種子排列的數(shù)量(作者使用黃金標(biāo)準(zhǔn)的30%作為原始文件中建議的種子排列)。
表1
?
在作者的attribute character embedding模型中,使用N-gram復(fù)合函數(shù)比使用LSTM或和復(fù)合函數(shù)獲得了更好的性能,因?yàn)镹-gram復(fù)合函數(shù)在將屬性字符串映射到其向量表示時(shí)比其他函數(shù)更好地保持字符串的相似性。同時(shí)由于傳遞性規(guī)則豐富了實(shí)體的屬性,進(jìn)而更好地提高了模型的性能。為了評(píng)估屬性字符嵌入在捕獲實(shí)體間相似性方面的能力,作者進(jìn)一步創(chuàng)建了基于規(guī)則的實(shí)體對(duì)齊模型,其中只使用實(shí)體標(biāo)簽字符串之間的編輯距離以對(duì)齊實(shí)體。對(duì)于DBP-LGD和DBP-GEO數(shù)據(jù)集,作者添加坐標(biāo)相似性作為額外的度量,因?yàn)檫@兩個(gè)數(shù)據(jù)集只包含位置實(shí)體。從表2可以看出,作者的模型的嵌入結(jié)果可以作為一個(gè)附加特性添加,以增強(qiáng)基于規(guī)則的模型的性能。
表2
?
總結(jié)
針對(duì)知識(shí)圖之間的實(shí)體對(duì)齊問題,作者提出了一種實(shí)體結(jié)構(gòu)嵌入與屬性字符嵌入相結(jié)合的嵌入模型。模型使用屬性字符嵌入將實(shí)體嵌入從不同的知識(shí)圖譜轉(zhuǎn)移到相同的向量空間。此外,作者采用傳遞性規(guī)則來豐富實(shí)體的屬性數(shù)目,以幫助識(shí)別基于屬性嵌入的實(shí)體之間的相似性。作者提出的模型在三對(duì)真實(shí)世界知識(shí)圖譜之間的實(shí)體對(duì)齊方面的hits@1始終超過基準(zhǔn)50%。
?
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于属性嵌入的知识图谱实体对齐的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | LGESQL: 结合线性有
- 下一篇: 论文浅尝 | TANDA: Transf