论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强
來源:IJCAI2019
論文鏈接:?https://www.ijcai.org/proceedings/2019/0725.pdf
?
概述
知識圖譜嵌入是從多關系數據中提取數據的工具,最近的嵌入模型對從現有數據庫中推斷新事實具有很高的效率。然而,這種精確結構的數據通常在數量和范圍上都是有限的。因此,要充分優化嵌入,還必須考慮更廣泛可用的信息源(如文本)。本文描述了一種通過增加實體嵌入和關聯詞嵌入來整合文本信息的無監督方法。該方法不修改知識圖譜嵌入的優化目標,這允許它與已有的嵌入模型集成。同時考慮了兩種不同形式的文本數據,并針對每種情況提出了不同的嵌入增強。在第一種情況下,每個實體都有一個描述它的關聯文本文檔。在第二種情況下,文本文檔不可用,相反,實體以單詞或短語的形式出現在非結構化的文本片段語料庫中。實驗表明,這兩種方法在應用于多種不同的知識圖嵌入模型時,都能有效地提高連接預測的性能。
?
模型和方法
?
嵌入增強方法
在本節中,作者將討論將文本數據合并到知識圖譜嵌入中的新方法。此附加信息允許培訓過程學習同時從知識庫和相關文本中反映事實的實體表示。根據可用文本數據的形式,我們考慮兩種不同的場景:在第一種場景中,每個實體都有一個與之相關的文檔來描述或定義實體;例如,歐洲的維基百科條目。這些數據可以從許多來源獲得,包括百科全書或字典。在第二個場景中,我們考慮一個非結構化的語料庫,它不直接鏈接到任何實體,但包含在任意位置的實體。例如,一篇提到歐洲的新聞文章可能是這個語料庫的一部分。對本文的組織結構沒有任何假設,因此它通常可以是從多個文檔中收集的句子的集合。這兩種形式的數據之間的關鍵區別在于,在前者中,實體是文檔中所有單詞的基礎主題,而在后者中,實體只是包含未知主題的混合文檔中提到的對象。結果,第一種情況包含每個單詞以某種方式與已知實體相關的附加信息。對于第二種情況,我們只假設在相同上下文中出現的單詞之間存在關聯。這一區別如圖1所示。
? ? ? ? ? ??
1.1 實體描述的嵌入模型
?
在本節中,我們為圖1中的第一個場景提供了一個模型,其中文本數據可用作實體描述。我們的方法基于[Socher等人,2013]的字向量模型,該模型將實體向量定義為實體名稱中字向量的平均值。首先,我們觀察到,該思想也可以應用于實體描述,從而強制實體嵌入共享共同的文本特征,如屬性或關系詞。這將為語義上更相似的實體生成更相似的向量。然后,我們通過添加新參數來控制每個單詞對給定關系的實體組成的貢獻程度,從而改進了該模型。
我們首先對WordVectors模型進行形式化,我們已經對其進行了調整,以適應實體描述的情況。設文本(ei)=wi,1,wi,2。. . 是與實體ei相關聯的單詞序列。設W表示詞向量的nw×d矩陣,其中nw是詞匯表中的詞個數,d是嵌入維數。讓Ai表示nw維向量,使得Aik是單詞wk在文本中出現的次數(ei)。然后,ei的嵌入向量可以表示為
? ? ? ? ? ??
上述等式的一個限制是描述中的所有單詞都被同等對待;通常情況下,某些單詞比其他單詞更適合預測關系。例如,樂器、鼓和職業等詞可能比其他詞(如女演員或星期六)更能反映音樂團體成員關系。因此,在預測音樂群體成員關系時,應以樂器、鼓、職業等詞來表示一個實體。
另一方面,在預測教育等不同關系時,加拿大人、課程或常春藤等詞可能更具相關性,因此實體應該更強烈地用這些詞來表示。這樣,包含“常春藤”一詞的實體向量在教育關系上比在音樂團體成員中更為相似。因此,這種模型可以預測兩個實體共享前一種關系,而不是后一種關系。
這種行為可以通過引入nr×nw矩陣B來實現,使得Bjk表示單詞wk在預測關系rj中的重要性。然后我們可以定義實體ei在關系rj下的表示為
? ? ? ??
這里⊙表示元素相乘。這樣,單詞wk對實體向量的總權重是文本中wk的頻率(e i)(即Aik)和wk與ri的相關性(即Bjk)的組合。
然而,每個詞對于預測每一種關系的意義通常是未知的。因此,我們用B i j=1對所有i,j初始化B,并通過梯度下降來學習這些參數。如第4節所示,該程序能夠自動學習單詞與不同關系的關聯,而無需任何監督。
我們可以用公式3代替表1中的ei,將文本信息合并到任何知識圖嵌入模型中。例如,擴展的TranSE模型是
? ? ? ? ? ? ? ? ? ? ? ?
我們稱這種方法為加權詞向量(WWV)。
?
1.2 一種參數有效加權方案
?
如前一節所述,WWV模型的一個潛在缺點是矩陣B中的參數數目為nr×nw,這對于某些數據集來說可能是非常大的。這可以通過允許Bij從較少數量的參數派生而不是將每個參數定義為獨立的參數來改進。為此,我們引入nr×d矩陣P,并定義關系ri和單詞wj的權重如下:
? ? ? ? ? ? ? ? ? ? ??
公式4中Pi是單詞特征空間中關系ri的表示,與單詞向量Wj的特征空間相同。由于Pi和Wj使用相同的特征,PiWTj是ri和Wj之間相似性的度量,它充當它們之間的權重。例如,我們可能期望關系ri=音樂組成員的向量Pi與關系Wj=樂器的向量Wj相似,因為音樂組和樂器的概念在語義上是相關的。
雖然使用softmax函數定義權重Bij在概念上很有吸引力,但實際上不需要標準化因子,因為在等式3中所有權重都再次標準化。因此,我們可以將關系rj下的實體ei表示為:? ?
? ? ? ? ? ? ? ? ? ?
這里我們用展開形式表示了等式3的向量矩陣乘法,以便更清楚地顯示單詞的加權平均值。因此,可訓練參數的數目從nr×nw減少到nr×d。我們將等式5中的模型稱為參數有效加權詞向量(PE-WWV)。盡管參數較少,但第4節證明了PE-WWV在預測精度上與WWV相當。
?
1.3訓練過程
?
在訓練WWV和PE-WWV模型時,由于單詞嵌入參數W和權重B都必須在沒有監督的情況下同時學習,因此產生了一個挑戰。也就是說,優化器必須為每個關系發現最重要的詞,而不必對這些關系或詞進行任何理解或描述。由于初始隨機性,優化器在訓練的早期階段可能會過分強調不相關的詞,然后永遠找不到好的解決方案。
我們發現,在前50個訓練階段保持單詞權重(B和P)不變,可以大大緩解這個問題。這允許優化器首先學習語義上有意義的單詞表示,而不會因為單詞權重的變化而中斷。然后,在剩余的訓練階段,我們優化所有參數,并能夠發現最相關的單詞。
?
1.4非結構化語料庫的嵌入模型
?
在本節中,我們考慮圖1中的第二個場景。為了從非結構化數據中獲取信息,我們在給定的語料庫上訓練word2vec模型[Mikolov等人,2013],以學習單詞的嵌入向量。Word2vec被訓練為將相似的向量分配給通常出現在相同上下文中的單詞,這使得它非常適合學習實體向量。例如,句子片段布賴恩瓊斯和他的吉他手基思理查茲開發了一個獨特的。。。很清楚地說明了布賴恩·瓊斯和基思·理查茲之間的關系。由于Brian Jones和Keith Richards在同一個上下文中以單詞的形式出現,因此這些實體的word2vec向量將更類似于非結構化語料庫的嵌入模型。
word2vec向量還可以捕獲顯示為屬性而不是句子對象的特征。在上面的例子中,這個句子還表示布賴恩·瓊斯和吉它之間的關聯。這對于預測布賴恩·瓊斯的其他關系類型(如樂器演奏或音樂團體成員)可能是一個有力的暗示。當給出這個訓練語句時,word2vec將學習在Brian Jones的向量中隱式地編碼該信息。這使得通過使用word2vec特征向量來增加實體嵌入中的信息成為可能。
整個模型的工作原理如下。讓wi表示實體ei的名稱的word2vec向量,讓ei表示實體向量。我們將實體ei的擴充向量定義為:
? ? ? ? ? ? ? ? ? ? ? ? ??
因此,ei中的每個潛在特征都包含原始實體向量和word2vec向量的貢獻。和方程式一樣。3和5,式6可應用于任何知識圖嵌入模型,方法是將表1中的ei替換為?ei。
由于word2vec在知識圖嵌入過程中學習了一組不同的潛在特征,因此我們使用矩陣M將word2vec特征空間中的向量映射到實體特征空間。注意,與在SE、TRANSR和RESCAL模型(即R、R(1)和R(2))中操作實體的特定于關系的轉換不同,M是所有關系類型通用的全局矩陣。因此,向量wM包含的特征有助于預測三元組,但可以從文本中學習。我們將公式6稱為特征和模型。
特征和模型分三個階段進行訓練。首先,在語料庫上訓練word2vec獲得wi向量,然后兩個階段對排序損失目標進行優化(方程1)。最初,M被設置為零并保持不變,而實體和關系參數E和R被優化為100個階段。最后,包括M和wi在內的所有參數在剩余的訓練期間一起訓練。
?
實驗
在本節中,我們評估了在Freebase[Bollacker等人,2008]和Wordnet[Miller,1995]的標準子集上提出的嵌入增強方法。我們將這些方法應用于表1中的每個評分函數,證明了它們增強現有嵌入模型的能力。我們首先將鏈路預測任務中的WWV和PE-WWV模型與包含實體描述的替代方法進行定量比較,然后定性地檢查WWV模型,以更好地了解其性能。接下來,我們將FeatureSum模型與使用非結構化文本語料庫的替代方法進行比較。
?
WWV和PE-WWV結果
?
在本節中,我們將評估加權詞向量模型的兩個變體-WWV和PE-WWV。我們比較了合并格式化為實體描述的文本數據的替代方法,即WordVectors模型,但應用于實體描述而不是名稱。我們把這個模型稱為WV-desc,我們還考慮了基線方法,稱為Base,其中實體向量簡單地隨機初始化和優化,沒有附加文本。
表2給出了這兩個數據集的平均rank和命中率@10指標。考慮到WWV是WV的泛化,可以通過簡單地在公式2中為每個j,k設置Bjk=1來減少WWV的性能,我們期望WWV的性能應該比WV-desc好。事實上,WWV在大多數情況下的平均秩和命中率都優于WV-desc。
令人有些意外的是,PE-WWV模型的性能至少和WWV一樣好,在許多情況下甚至更好。有人可能會認為PE-WWV的性能會更差,因為它的表示容量不大于WWV。通過設置Bjk=exp(PjWTk),可以使WWV等效于PE-WWV,這意味著它在理論上至少也可以執行。經過更深入的研究,我們發現PE-WWV傾向于學習比WWV相對更強的單詞權重,這反過來又允許它在不同關系的實體表示之間創建更大的可變性。因此,WWV似乎受到優化算法的限制,而不是其理論性質。
與基線相比,平均排名在大多數情況下都有所提高,而hits@10則顯示了Wordnet和Freebase之間的不同結果。對于Wordnet,與任何文本增強方法相比,基線在hits@10上的性能最好,這意味著此數據集中的文本可能并不十分指示關聯的實體。不過,對于Freebase來說,這些描述提供了顯著的好處,在大多數情況下,平均rank和命中率@10都提高了。
為了更好地理解這種行為,我們檢查了Wordnet測試三元組,這些三元組在基線上的排名明顯好于WWV-desc。我們觀察到,在許多情況下,相關實體由完全不同的文本描述。例如,一個這樣的三元組是(千字節,有部分,字),其中主題和對象的Wordnet定義是“單位信息等于字節”和“存儲在計算機內存中的字字符串位大型計算機使用字位長”(省略了停止字)。
? ? ? ? ? ? ?
由于這些定義不包含常用詞,因此在WVdesc模型中,它們可能看起來不相關。相比之下,維基百科上關于千字節和單詞的摘要包含了諸如unit、digital和memory之類的常用關鍵字,這可能解釋了為什么WV-desc在Freebase上表現得更好。
為了進一步驗證這一假設,我們計算了每個三元組中主語和賓語描述之間的平均常用詞數量。在Wordnet中,按基數排名的三元組平均包含0.67個常用詞,而按WV desc排名的三元組平均包含0.89個常用詞。相比之下,Freebase中的三元組平均包含20.0個常用單詞。因此,與Wordnet相比,word vectors方法需要更詳細的實體描述。
?
定性結果
?
為了更好地理解WWV模型是如何工作的,我們在訓練之后檢查哪些單詞被賦予了每個關系的最大權重。表3列出了使用TransE訓練的Freebase中幾個關系ri的前10個單詞(從Bi中最強的權重中提取)。
我們觀察到,許多熱門詞匯在語義上與關系相似。例如,出生地關系傾向于強調屬于民族的詞語,而作為音樂團體成員的關系則強調與樂器(如樂器、弦和鼓)有關的詞語。這表明,模型的功能正如我們的直覺所暗示的那樣,并用最能表明所討論的關系的詞語來表示實體。請注意,此表中單詞和關系之間的關聯是以完全無監督的方式學習的,只提供文本和訓練三元組。
? ? ? ? ? ?
特征和結果
?
在本節中,我們將FeatureSum模型與其他方法進行比較,以合并來自非結構化文本語料庫的信息。每個方法在定義實體向量的方式上都不同。WV name s模型應用了[Socher等人,2013年](等式2)的WordVectors技術,其中每個實體與其名稱的組成詞相關聯。此模型也不使用任何補充文本數據,但可以在基線上進行改進。WV names init模型類似于WV names,但是每個wi都用word2vec vector初始化。該模型通過word2vec向量的訓練合并了文本數據,因此是FeatureSum模型的一個關鍵參考點。
????兩個數據集的結果見表5。注意,這些結果不能直接與表2進行比較,因為這兩組實驗使用不同的文本數據。應該在同一個表中跨行進行比較。在這樣做時,Wordnet上的平均秩通常表明,僅對實體名稱應用WV已經給出了顯著的改進,而使用word2vec向量初始化則進一步改進了結果,如[Socher等人,2013]所建議的。對于hits@10,結果是好壞參半的,WVnames方法在某些情況下顯示出優勢,而在其他情況下則顯示出損失。
?
總結
本文討論了兩種利用文本數據信息擴充知識圖中實體嵌入的新方法。第一種方法將實體向量表示為與每個實體相關聯的詞的直接函數,并且在以實體描述的形式提供文本數據時適用。第二種方法在文本文檔上訓練word2vec算法,并將它為實體名學習的特征添加到原始實體特征向量中。實驗結果表明,如果文本數據具有足夠高的質量,那么這兩種方法與無文本的嵌入方法和可供選擇的文本合并方法相比,可以提高許多不同嵌入模型的鏈接預測精度。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图谱实战 | 基于半结构化百科的电影KG
- 下一篇: 陈睿:架构设计之数据库拆分六大原则