论文浅尝 | 基于知识库的自然语言理解 03#
本文轉(zhuǎn)載自公眾號: 知識工場。
羅康琦,上海交通大學計算機系2019屆博士,研究方向為自然語義理解和知識圖譜。2012年獲得華中科技大學軟件工程學士學位,現(xiàn)就職于京東數(shù)據(jù)科學實驗室(Data Science Lab)。他曾在AAAI,IJCAI,EMNLP等國際頂級會議上發(fā)表多篇論文。
本章的研究中,我們關(guān)注從海量純文本數(shù)據(jù)中挖掘出的關(guān)系三元組。二元關(guān)系是一個三元組的語義核心,它扮演謂語的成分,描述了主語和賓語實體間具有的特定聯(lián)系。 然而,由于關(guān)系具有多義性,以及知識庫與自然語言間存在的語義間隔,我們很難直接像實體理解那樣,建立關(guān)系和知識庫謂詞的一一對應(yīng)。因此,我們嘗試從多個角度出發(fā),尋找關(guān)系與知識庫之間存在的復(fù)雜匹配。
4.1 關(guān)系的主賓語類型搭配挖掘
這一節(jié)的研究中,我們旨在尋找不同關(guān)系連接的實體所具有的類型偏好,并利用知識庫中的實體信息構(gòu)建豐富的類型層次關(guān)系,從而挖掘具有代表性的(主語,賓語)類型搭配,在粗粒度上展現(xiàn)關(guān)系的不同含義。
4.1.1 引言?
開放式信息抽取( Open Information Extraction )任務(wù)的目標是從從開放領(lǐng)域的文本語料庫中挖掘命名實體或概念,并抽取出連接這些實體的各種不同的自然語言關(guān)系。之所以稱為開放式抽取,是因為要挖掘的關(guān)系不局限于特定領(lǐng)域也不基于固定的匹配規(guī)則。學術(shù)界中,較為先進的開放式信息抽取系統(tǒng)[1-4]可以從海量互聯(lián)網(wǎng)語料庫中,以很高的準確率提取百萬甚至更高級別數(shù)量的關(guān)系實例,(??,??,??)三元組形式,我們將其稱為關(guān)系三元組。其中, 為二元關(guān)系,一般表示為短語(詞級別描述)或依存 語法路徑(語法級別描述)。 和 是關(guān)系的兩個參數(shù),即主語和賓語,同樣表現(xiàn)為短語形式。?
開放式信息抽取提供給我們海量關(guān)系實例的同時,我們有興趣將這些實例進行歸納,尋找更加抽象的語義表示。我們關(guān)注的重點就是這些關(guān)系所具有的不同含義。以關(guān)系 “play in” 為例,開放式信息抽取系統(tǒng)可以提供一系列具有 (?, play in,?) 形式的三元組。例如 ReVerb 系統(tǒng)[2] 可抽取出三元組 ( Goel Grey, played in, Cabaret ) 以及( Tom Brady, play in, National Football League )。給定某關(guān)系已有的三元組實例,我們可以推理 出一系列由類型三元組描述的關(guān)系模式,即主賓語類型搭配(?,playin,?)。其中以及為標準化的實體類型,其來源為含有類型定義的知識庫,例如 WordNet [5],Yago [117], Freebase [9] 以及 Probase [118]。每一個關(guān)系模式都可以用來表示一組特定的 “play in” 關(guān)系實例,其中主賓語分別屬于對應(yīng)的類型。對于上例“play in”,我們可以給出兩個可能的模式:( film_actor, play in, film ),以及( pro_athlete, play in,? sports_league )。由此可見,二元關(guān)系 “play in” 具有明顯歧義,不僅可以描述 “運動員—體育聯(lián)盟” 聯(lián)系,還可以描述 “演員—電影” 之間的聯(lián)系。對于歧義較少的關(guān)系,我們依然可以推理出不同的主賓語類型搭配,例如關(guān)系 “is the mayor of” 可以推理出 ( person, is the mayor of, location ), 以及( politician, is the mayor of, city )等不同模式,在類型上具有不同的粒度,后者顯然更加具體。?
對于自然語言理解任務(wù),例如上下文相關(guān)的實體消歧,還有開放領(lǐng)域自動問答,關(guān)系模式是一個有用的信息。假設(shè)我們要對句子 “ Granger played in the NBA ” 進行實體識別。“ Granger ”對應(yīng)一個人名,但由于只提供了姓氏,因此具有較高歧義。而“ the NBA ” 幾乎可以確定是人們熟知的體育聯(lián)盟。再結(jié)合上面列舉的 “ play in ” 所具有的關(guān)系模式, 實體識別模型便可以獲得額外特征,即“ Granger ”更有可能代表運動員,也就使得籃球運動員 “ Danny Granger ” 更容易被正確識別。考慮到這個實體并不非常著名,與之相關(guān)的關(guān)系實例數(shù)量可能較少,但類型特征依然可以提供很大的幫助。?
為了生成關(guān)系模式,一種已有的方案是基于選擇偏好(Selectional? Preference)技術(shù)[119-121],它可以對關(guān)系中的主賓語實體計算各自具代表性的類型。選擇偏好技術(shù)主要思路來自關(guān)系與類型之間的互信息計算[120],這種方式傾向于選擇當前關(guān)系所獨有的類型,換句話說,如果一個類型普遍適用于不同關(guān)系中的實體描述,那么它便不容易被選為代表類型。然而在開放式信息抽取中,很多關(guān)系實際上是相關(guān)的,甚至非常相近,例 如 “ play in ”,“ take part in ” 以及 “ is involved in ” 。這些關(guān)系實際上具有相同的語義,因此主賓語的類型搭配也應(yīng)該相似,而選擇偏好技術(shù)會因為關(guān)系的不同而對這些類型都進行弱化。?
因此本章中,給定一個關(guān)系和一系列具體的三元組,我們的任務(wù)是尋找那些最具體的類型搭配,而同時包含盡可能多的關(guān)系實例。我們的方法首先將關(guān)系實例中的主賓語映射為知識庫中的實體,即為每個三元組生成 (??,?) 實體對。接著根據(jù)不同實體所屬 的類型,尋找可以覆蓋盡可能多實體對的類型搭配(??,?)。最后,當不同的類型搭配覆蓋的實體對較為接近或一致時,我們利用知識庫中已有的 IsA 關(guān)系,擴充知識庫中類型之間的層次結(jié)構(gòu),以此尋找更加具體的類型搭配。?
本章的貢獻可以總結(jié)為以下三個部分:?
1. 我們具體定義了基于開放式信息抽取的二元關(guān)系模式推理問題;?
2. 我們設(shè)計了基于 Freebase 和實體鏈接任務(wù)的方法,對一類關(guān)系的主賓語所具有的類型分布進行聯(lián)合建模;?
3. 我們在 ReVerb 數(shù)據(jù)集上進行實驗,根據(jù)人工標注的類型搭配結(jié)果,對不同二元關(guān)系生成的最佳模式進行測評。與傳統(tǒng)選擇偏好方法比較,我們的模型在 MRR 指標上得到了10%的相對提升。
4.1.2 我們的方法
二元關(guān)系模式挖掘的系統(tǒng)架構(gòu)如圖4–1所示。整個系統(tǒng)的輸入為開放式信息抽取系統(tǒng)中的所有關(guān)系三元組,經(jīng)過實體鏈接、關(guān)系分組以及模式排序三個步驟之后,這些三 元組將會轉(zhuǎn)換為一系列排好序的主賓語類型搭配。每個步驟概括如下,本節(jié)將對它們進 行具體描述。?
(1)實體鏈接: 關(guān)系三元組中的參數(shù)實體均為字符串形式。我們通過模糊字符串匹 配的方式,將主賓語分別映射到知識庫中的不同實體。
(2)關(guān)系分組: 經(jīng)過鏈接之后,關(guān)系表達形式相近的三元組將聚集在一起,形成一個大的分組。并且,每一個分組會從內(nèi)部的不同關(guān)系中選擇一個,作為整組的代表關(guān)系。
(3)關(guān)系模式排序: 對分組內(nèi)的每一個具有鏈接的關(guān)系實例,其主賓語將轉(zhuǎn)換為知識庫中對應(yīng)的類型。根據(jù)不同的類型搭配所覆蓋的三元組數(shù)量,以及各個類型的寬泛或具體程度,對所有候選的關(guān)系模式進行排序并輸出。
圖4–1 二元關(guān)系模式挖掘的流程框圖。
4.1.2.1 實體鏈接?
在實體鏈接步驟中,一個關(guān)系三元組的主賓語將分別映射到知識庫中的實體,形成 帶鏈接的三元組(??,??, ),并配有對應(yīng)的鏈接分值。由于每一個三元組所具有的信息較少,并沒有提供足夠的上下文,因此實體鏈接過程主要基于主賓語名稱以及實體在知識庫中名稱的模糊匹配。
實體在知識庫中存在至多一個標準名稱以及多個別名,例如 Freebase 中,實體的標準名稱和別名分別對應(yīng)??以及??屬性。我們利用這些屬性值構(gòu)建了從單詞指向不同名稱的倒排索引,并進一步生成每個關(guān)系參數(shù)的候選實體。我們用??表示知識庫中的一個名稱(或別名),若將其看做單詞的集合( bag-of-words),那么顯然單詞之間具有不同的重要性。直觀上看,若 中某單詞 出現(xiàn)在極少數(shù)的名稱中,那么它對整個名稱而言更加重要;反之類似“ of ”,“ the ”等停止詞會出現(xiàn)在大多數(shù)名稱里,那么在模糊匹配的過程中,其權(quán)重就很低。因此我們利用文檔頻率倒數(shù)( Inverted Document Frequency )用于擬合單詞??的權(quán)重:?
(4-1)
此外,我們直接從知識庫的名稱中過濾停止詞,相當于它們的 idf 分值為 0。為了衡量 關(guān)系三元組中的關(guān)系參數(shù)??與知識庫名稱 間的模糊匹配程度,我們計算兩者之間的帶權(quán)重疊分值:?
(4-2)
對于候選實體?,我們分別計算其不同名稱與關(guān)系參數(shù)的模糊匹配分值,最終選取最高分代表實體 ?與關(guān)系參數(shù) 的匹配度:
(4-3)
為了控制候選實體的質(zhì)量,對于由??個單詞構(gòu)成的關(guān)系參數(shù)(停止詞忽略不計),我們僅考慮那些存在至少一個名稱具有 ?1 個單詞重疊,同時模糊匹配度高于閾值??的候選實體。對于每個關(guān)系三元組中的主賓語,我們分別抽取匹配度排名前 10 的候選實體,用于后續(xù)的計算。?
對單個關(guān)系參數(shù)進行匹配計算之后,我們將計算關(guān)系三元組 (??, ?,?) 與實體對 (??, ?) 之間的聯(lián)合匹配度。聯(lián)合匹配度的定義方式有兩種。第一種匹配方式較為樸素( Naive ),僅考慮關(guān)系中的兩個參數(shù)與各自實體的匹配程度,主賓語實體互相之間并無直接影響:?
(4-4)
第二種匹配方式除了考慮 和 各自的匹配分數(shù),還考慮到了這兩個實體之間存在的聯(lián)系,在知識庫上體現(xiàn)為連接它們的謂詞或謂詞序列。我們以??表示? 的所有單詞,??表示知識庫中連接? 和? 的謂詞路徑,其長度至多為 2 。若實體? 與??可以通過長度為1的路徑相連,則意味著知識庫中存在通過某謂詞??連接的事實三元組 (?,?)。 類似地,若 和 之間通過長度為 2 的路徑相連,則意味著存在??,??以及中間實體,使得事實 (?,?) 以及 (?,?) 存在于知識庫中。我們利用樸素貝葉斯模型,利用條件概率的形式定義謂詞序列 與關(guān)系 之間的相關(guān)程度:
(4-5)
Yao 等人[35] 將知識庫謂詞序列與關(guān)系的對應(yīng)建模為機器翻譯模型,并根據(jù)對齊模型 IBM Model 1[122] 學習謂詞的先驗概率??以及轉(zhuǎn)移概率??。基于已有工作的概率模型,給定關(guān)系后預(yù)測謂詞序列的條件概率??便可計算得出。對于候選實體 和?,它們之間的謂詞序列與關(guān)系? 越接近,則實體鏈接結(jié)果越有可能正確。因此,我們通過枚舉 和? 之間所有滿足長度條件的謂詞序列,計算關(guān)系實例與實體對之間的相似度:?
(4-6)
由于條件概率 的計算涉及到大量連乘,其數(shù)值在不同實體對之間的的差別較為明顯,這也使得其在公式4–6中具有較高的地位。而當所有候選實體間的謂詞序列與當前關(guān)系都不相似的時候,條件概率的隨機波動反而會帶來不小的干擾。因此,我們采用了一種集成( Ensemble )方案:首先定義條件概率閾值??,對于當前關(guān)系實例的所有候選實體對,若其中存在至少一條與關(guān)系足夠相近的謂詞序列,即滿足??時,模型使用公式4–6進行整體匹配度計算,否則模型退回到公式4–4,使用樸素的方式尋找最佳實體對。最后,我們選擇分數(shù)最高的實體對,作為關(guān)系三元組的唯一鏈接結(jié)果。
4.1.2.2 關(guān)系分組?
這個步驟對所有已鏈接的關(guān)系三元組進行聚類,擁有相似關(guān)系描述的三元組將歸為同一分組。每個三元組僅存在于唯一一個分組中。?
這個步驟的思路是通過語法轉(zhuǎn)換,將復(fù)雜的關(guān)系描述進行簡化。如果兩個不同的關(guān)系具有相同的簡化形式,那么視為其語義相同,并歸為同一分組。首先考慮到形容詞、 副詞以及情態(tài)動詞的存在與否,基本上不會改變一個關(guān)系中主賓語實體所屬的類型,因此我們將這些詞從關(guān)系描述中移除。此外,大多數(shù)關(guān)系包含動詞,但時態(tài)并不一致,因此我們將所有時態(tài)統(tǒng)一為現(xiàn)在時。此外,關(guān)系中的被動語態(tài)將會被保留,不做形式轉(zhuǎn)變。例如經(jīng)過語法轉(zhuǎn)換之后,下列關(guān)系實例將歸為同一組:( X, resign from, Y ), ( X, had resigned from, Y ) 以及 ( X, ?nally resignd from, Y )。最后,每一個分組的代表關(guān)系為組內(nèi)關(guān)系的統(tǒng)一簡化形式。如上例所示,三個關(guān)系實例屬于“ resign from ”組。
4.1.2.3 類型搭配排序?
給定一個關(guān)系分組??,這一步驟將生成排好序的主賓語類型對,即該關(guān)系的代表性模式。以二元關(guān)系“ play in ”舉例,理想情況下,生成的結(jié)果里會包含模式? actor, film ? 以及? pro_athlete, sports_league ?。?
對于帶鏈接的三元組 (?, , ?),若在知識庫中, 具有類型??,而 具有類型??,那么該三元組為類型搭配? , ?的一個支持實例。一個實體有可能從屬于多種類型,無論類型寬泛或具體,因此一個三元組可以支持多種類型搭配。對關(guān)系分組? 中的所有實例進行處理,我們可以得到每一種類型搭配所對應(yīng)的支持集合:
(4-7)
得到所有可能的類型搭配之后,我們可以根據(jù)支持集合的大小進行排序。由于每個實體從屬于多種類型,因此顯然更加寬泛的類型搭配通常會被排在前列。但是,對于人類或是機器理解一個自然語言關(guān)系,寬泛的關(guān)系模式所具有的信息量相對不足,尤其是當兩種類型對具有幾乎一致的支持集合時,往往更具體的類型對具有更好的代表性。例如對于關(guān)系“ X die in Y ”,在開放式信息抽取和實體鏈接均不產(chǎn)生錯誤的情況下,類型對 ? person, location ?和? deceased_person, location ?將對應(yīng)完全一致的支持集合。后者對關(guān)系的描述更加具體,在不丟失支持實例的同時,盡可能縮小主語在知識庫中的范圍。?
由此可見,對候選類型對的排序需要考慮每個類型的相對粒度。接下來的目標就是提取知識庫中類型之間的包含關(guān)系,建立更加完整的層次結(jié)構(gòu)。我們定義所有屬于類型??的實體為??。理想情況中,若? 包含于?,那么所有? 中的實體都從屬于??,即??. 這樣的包含規(guī)則稱為“嚴格類型包含”。例如在 Freebase 中,類型 person 所包含的其它類型包括 actor,politician 以及 deceased_person 等。?
然而,嚴格類型包含在知識庫中并不多見,主要原因是知識庫的類型定義和人類對自然界的歸納存在一定差別,以 Freebase 中的 award_winner 為例,類型中絕大多數(shù)實體都為自然人,但依然包含少量的組織實體在內(nèi)。基于嚴格類型包含的規(guī)則,award_winner 與 person 之間毫無包含關(guān)系,但事實上,考慮到非自然人實體僅存在極少數(shù),兩個類別之間在很大程度上依然構(gòu)成從屬關(guān)系。另一方面,由于實體的類型涉及到人工標記,一 旦出現(xiàn)類型標記錯誤,就有可能導(dǎo)致類型之間無法滿足嚴格包含條件。
為了能更好地建立類型層次關(guān)系,我們使用一種更加松弛的類型包含定義方式。具體而言,若? 中足夠數(shù)量的實體從屬于?,那么就認為包含關(guān)系成立。因此,我們定義 包含于? 的度,即對應(yīng)實體包含的比例:
??
(4-8)
若??,則 包含于 ?。閾值 ? 表示松弛程度,若 ? = 1,則松弛包含退化 為嚴格包含。若 ? 太小,那么類型之間將具有非常豐富的層次關(guān)系,但其有效性則會下降。最后,遍歷知識庫中所有的類型,我們就可以得到特定松弛程度下的類型層次圖。?
隨著類型層次關(guān)系建立完畢,我們就可以定義不同類型搭配之間的包含關(guān)系。若類型對? , ?被另一個類型對??,???,則意味著以下條件之一成立:i) ??, ??;ii) ??, = ;iii) ?t4, = 。最終的類型對排名體現(xiàn)為支持集合大小和類型對包含關(guān)系的共同作用。以支持集合降序排列為基礎(chǔ),若類型對??= ? , ?包含于另一個類型對??,且各自的支持集合大小 (??) 幾乎一致,那么 將排在 之前。我們同樣可以根據(jù)重疊關(guān)系實例的覆蓋程度,來定義兩個支持集合是否幾乎一致:?
(4-9)
其中??為判斷集合中的元素是否一致的閾值。
4.1.3 實驗?
4.1.3.1 實驗設(shè)置?
我們在實驗中使用的知識庫為 Freebase [9]在2014年2月16日的版本,包含了大約 40,000,000 個不同實體,以及 1,700 個主要類型。實驗中使用的開放式信息抽取系統(tǒng)為 ReVerb [2],ReVerb 數(shù)據(jù)集提供了多種版本,我們使用的版本包含了置信度最高的 14,000,000 個關(guān)系三元組。?
ReVerb 抽取的三元組中,部分關(guān)系參數(shù)無法鏈接到 Freebase 中的某一個實體,例如三元組 ( Metro Manila, consists of, 12 cities ),其賓語顯然不是一個實體,而是用自然語言描述的類型。這部分三元組不是我們的研究對象,需要進行過濾。考慮到在自然語言中,概念通常對應(yīng)非專有單詞,并且多為小寫,因此我們根據(jù) WordNet 收集了常用的非專有單詞。若一個三元組中包含純小寫,或純粹由非專有單詞構(gòu)成的主賓語,那么該 三元組將被過濾。除此之外,ReVerb 三元組中還具有時間或日期作為關(guān)系參數(shù)的情況, 例如“ Jan. 16th,1981 ”作為賓語,但同樣不對應(yīng) Freebase 的某個實體。為應(yīng)對這種情況,我們使用 SUTime [123] 工具識別時間或日期,將它們替換為具有 type.datetime 類型的虛擬實體。經(jīng)過清理之后,系統(tǒng)共收集了 3,234,208 個三元組,對應(yīng) 171,168 個不同的關(guān)系分組。?
實驗中具體使用的參數(shù)值為:τ = 0.667,ρ =?,? = 0.6 以及 λ = 5%。關(guān)系分組步驟中,我們使用 Stanford Parser [124] 對每個關(guān)系進行詞性標注、語法分析以及時態(tài)轉(zhuǎn)換。
4.1.3.2 結(jié)果分析?
我們首先對實體鏈接進行評測。由于 ReVerb 沒有提供主賓語的鏈接結(jié)果,我們從所有關(guān)系實例中隨機挑選 200 個三元組,并人工標注這些主賓語所鏈接的實體。我們對比實體鏈接過程的樸素方法和集成方法,使用準確率( Precision ),召回率( Recall ), F1 分值,以及 MRR [125]作為評價指標。MRR 為平均排名倒數(shù)( Mean Reciprocal Rank ), 即統(tǒng)計正確的鏈接結(jié)果在輸出列表中的排名,再計算所有三元組上排名倒數(shù)值的平均。 當一個三元組的主賓語均鏈接正確時,我們才認為該三元組鏈接正確。實驗結(jié)果比較如表4–1所示。不同于常規(guī)文本的實體鏈接,由于每個三元組的上下文極少,鏈接具有一定難度。基于集成的鏈接方法引入了關(guān)系與實體間語義的匹配模型,使主賓語的鏈接實體互相影響,鏈接過程的準確率和召回率均得到穩(wěn)定提升。
表4–1 ReVerb 三元組的實體鏈接實驗結(jié)果。?
接下來我們衡量二元關(guān)系的主賓語搭配結(jié)果,主要關(guān)注具有較多實例的關(guān)系分組。我們首先從包含至少500個三元組的關(guān)系分組中,隨機選擇50個分組,對于每個分組,我們挑選出支持集合數(shù)量最大的100個類型對作為評測的對象。我們將這些類型對分配給3位對 Freebase 類型有了解的標注者,每個標注者根據(jù)自己的理解,判斷類型對是否適合于描述對應(yīng)關(guān)系,并標注0到3的分值。將三位標注者的打分進行平均,即可得到這50個關(guān)系分組的類型對排序。?
我們使用點對點互信息( Pointwise Mutual Information )[126] 作為基線模型,該模型在選擇偏好任務(wù)中被使用,例如文獻[119]。 PMI 模型使用以下公式定義一個關(guān)系 與類型對? 的關(guān)聯(lián)度:?
(4-10)
其中??代表聯(lián)合概率,即關(guān)系分組為?,且支持 ?的三元組占所有三元組的比重, ? 代表任意關(guān)系或類型對。?
我們使用 MRR 分數(shù)進行評測,衡量不同方法生成的最佳關(guān)系模式在標注列表中的位置。如表4–2所示,和基線模型進行比較,我們的方法在 MRR 指標上獲得了10.1%的相對提升。
表4–2 二元關(guān)系模式推理的評測結(jié)果。
最后,表4–3列舉了一些具體的關(guān)系分組,以及我們系統(tǒng)抽取的關(guān)系模式。我們可以看出,當構(gòu)建了 Freebase 的類型層次結(jié)構(gòu)之后,系統(tǒng)能夠同時得到粗粒度和細粒度的類型信息,因此最終生成的類型對具有更加豐富的信息量。
表4–3 生成的二元關(guān)系模式舉例。
4.2 關(guān)系的結(jié)構(gòu)化語義挖掘
上一節(jié)的研究目標是挖掘一個關(guān)系所存在的主賓語類型搭配,用于區(qū)分不同的語義。本節(jié)的研究重點放在了深入理解關(guān)系本身,用結(jié)構(gòu)化的符號代替字符形式的描述。 我們提出了基于模式圖的語義表示方法,與傳統(tǒng)路徑規(guī)則相比,圖結(jié)構(gòu)具有的分支可以更好地支持復(fù)雜語義,具有良好可解釋性的同時,也可被用于知識庫補全任務(wù)中。
4.2.1 概述?
以 DBPedia、Freebase 等為代表的開放領(lǐng)域知識庫包含了預(yù)先定義好的標準化的知識庫謂詞,用于連接知識庫中的實體、類型和概念。知識庫中的事實采用三元組形式表示,與關(guān)系三元組保持一致。本節(jié)中,我們假定每個關(guān)系三元組均已完成了實體鏈接步驟,用(??, ,??)來表示。那么很顯然,事實三元組和關(guān)系三元組的區(qū)別僅體現(xiàn)在謂 語成分上。因此,利用知識庫謂詞來表示自然語言關(guān)系的語義,是一個很自然的想法, 若能將開放式信息抽取中的每一個關(guān)系實例都映射為知識庫中的三元組,那么機器將很容易理解海量非結(jié)構(gòu)化文本中蘊含的結(jié)構(gòu)化信息。這種基于直接對應(yīng)的思路非常直觀,但是對于現(xiàn)有的知識庫,例如 Freebase [9],即便其中包含十億級別的事實三元組,仍然會面臨兩個主要的挑戰(zhàn)。?
首先,知識庫和自然語言關(guān)系之間存在著語義鴻溝。以關(guān)系“ has? grandfather ” 為例,Freebase 中并不存在一個謂詞能與之完全匹配,但存在一些和它相關(guān)的謂詞,例如 parents 以及 gender 。這是因為知識庫的構(gòu)建過程較為嚴謹,為了避免歧義,每一種謂詞的語義都更加單一,同時為了避免信息冗余,能通過其它謂詞進行描述的語義,通常不會對應(yīng)一個單獨的謂詞。?
其次,知識庫的構(gòu)建還遠不夠完整。即便擁有海量的事實三元組,但依然存在很多長尾的謂詞,并沒有多少事實與之相關(guān)。這個挑戰(zhàn)也引入了另一個開放的研究課題,即知識庫補全( Knowledge Base Completion )[25,26,127]。該課題的目標是,給定知識庫中的目標謂詞,根據(jù)其擁有的少量事實三元組進行學習,為其補充新的事實,這些新事實的主語和賓語均為知識庫中已存在的實體。換言之,在已有的實體之間連接更多的謂詞, 使知識庫更加稠密。?
為了應(yīng)對以上兩個挑戰(zhàn),我們關(guān)注的重點在于能否利用知識庫中已經(jīng)存在的謂詞, 描述一個自然語言關(guān)系所具有的語義。已有的相關(guān)研究方法主要可以分為兩大類。第一類方法為知識庫的向量表示學習。這種方法類似于詞向量技術(shù),利用知識庫中的三元組作為訓練數(shù)據(jù),學習每個實體以及謂詞在連續(xù)空間中的特征表示,使得每個三元組的兩個實體和謂詞表示之間滿足特定的代數(shù)關(guān)系。將開放式信息抽取的關(guān)系三元組與知識庫已有的事實三元組合并,這類方法可以獲取每一個目標關(guān)系的隱含語義。但考慮到知識庫表示學習中涉及到的參數(shù)數(shù)量非常龐大,這種方法需要大量的訓練數(shù)據(jù)以應(yīng)對長尾實體,同時訓練的時間開銷也不可忽略。已有的研究工作主要集中在了較小的知識庫上,例如 FB15K [29,128]。
另一類方法為規(guī)則推導(dǎo),每個目標謂詞或關(guān)系的語義表達由明確的規(guī)則構(gòu)建而成。這里的規(guī)則等價于知識庫的子結(jié)構(gòu),用于連接自然語言關(guān)系中的主語和賓語實體。其中最基本的結(jié)構(gòu)為路徑的形式,即通過一個或多個謂詞組成序列,連接主語和賓語。規(guī)則推導(dǎo)方法的優(yōu)勢在于高度可解釋性。一方面,知識庫的子結(jié)構(gòu)可以轉(zhuǎn)換為知識庫上的查詢語言例如 SPARQL ,因此可以通過在知識庫上運行查詢的方式,明確得知特定的兩個實體之間是否可能存在某種關(guān)系。另一方面,相比知識庫向量學習方式,基于規(guī)則推導(dǎo)的方法允許使用多條規(guī)則描述同一個關(guān)系,更好地適應(yīng)自然語言中的多義性。此外,必要的情況下,人類可以對輸出的規(guī)則進行微調(diào)。?
根據(jù)以上論述,本節(jié)的研究建立在規(guī)則推導(dǎo)的基礎(chǔ)之上。因此,我們將傳統(tǒng)的基于路徑的規(guī)則進行擴展,而是以樹形結(jié)構(gòu)的形式,不僅連接主語和賓語,同時還連接了其余相關(guān)實體,用于表示目標關(guān)系所具有的隱藏語義限制。這種樹形結(jié)構(gòu)是具有相同邊結(jié)構(gòu)的知識庫中具體子圖的抽象表示,我們將其稱為模式圖( Schema Graph )。圖4–2是二元關(guān)系“ has grandfather ” 的模式圖,通過謂詞路徑 [ parents, parents ] 表示主賓語之間的祖孫關(guān)系,同時利用 gender 限制賓語的性別,以此精確描述關(guān)系語義。
?
圖4–2 二元關(guān)系“ has grandfather ”的語義表示。
具體而言,給定自然語言中的關(guān)系r 以及抽取出的三元組 (??,??,??),本章的研究任務(wù)是在知識庫中挖掘出一系列與之相關(guān)的模式圖,并且用概率分布的形式,描述用特定模式圖代表該關(guān)系語義的可能性。在進行模式圖推理的過程中,我們主要會面臨以下三個技術(shù)性挑戰(zhàn):?
首先,候選模式圖的數(shù)量非常龐大。傳統(tǒng)的規(guī)則推導(dǎo)中只考慮謂詞路徑,雖然候選路徑的數(shù)量隨長度呈指數(shù)增長,但在知識庫中能夠連接兩個特定實體的路徑僅有少數(shù), 因此簡單遍歷可以得到所有的候選路徑。然而,具有樹形結(jié)構(gòu)的模式圖中,不僅存在額外的謂詞作為分支,而且包括用于語義限制的實體, 任何一個實體的改變,都會產(chǎn)生一個新的模式圖。若使用暴力枚舉生成模式圖,時間復(fù)雜度上無法承受,同時還會生成大量偏離語義的模式圖。?
其次,模式圖推理需要做好粒度上的平衡。當一個模式圖缺少足夠的語義限制,它雖然能匹配已知的三元組,但也可能混淆了錯誤的三元組。反之,若一個模式圖包含了不必要的語義限制,就很可能無法匹配已知的三元組。很顯然,太具體或?qū)挿旱哪J綀D都無法精確表示一個關(guān)系的語義,但是如何兼顧這兩點,并通過概率分布描述不同粒度候選的語義匹配程度,這成為了模式圖推理過程中的另一個難點。
最后,模式圖推理模型僅有三元組作為訓練數(shù)據(jù),不存在標注好的模式圖,同時沒有明確給出不符合特定關(guān)系的錯誤三元組數(shù)據(jù),這給學習過程增添了難度。一種規(guī)避方法是使用封閉世界假設(shè)( Closed World Assumption ),即假定所有未見過的三元組都是錯誤的。但考慮到知識庫本身遠不夠完整,封閉世界假設(shè)會帶來大量的錯誤反例,這并不是一個最好的解決方案。?
本章提出的基于模式圖的規(guī)則推導(dǎo)模型旨在解決應(yīng)對以上三個挑戰(zhàn),其主要貢獻可 以分為以下四個部分:?
1. 我們定義了自然語言關(guān)系的模式圖。和傳統(tǒng)規(guī)則推導(dǎo)模型相比,模式圖是謂詞路徑形式的規(guī)則擴展,通過挖掘隱藏的關(guān)聯(lián)實體,在路徑之上構(gòu)建分支,準確描述關(guān)系的復(fù)雜語義;
2. 我們提出了一種基于局部搜索的啟發(fā)式方法,通過高效的剪枝策略,快速生成 關(guān)系所對應(yīng)的候選模式圖;?
3. 我們提出了一種基于數(shù)據(jù)驅(qū)動的方法,將模式推理問題轉(zhuǎn)化為查詢?nèi)蝿?wù)進行建模,并在不明確生成負面訓練數(shù)據(jù)的情況下,學習候選模式圖之間的概率分布,實現(xiàn)不同粒度模式圖的統(tǒng)一比較;?
4. 我們對自然語言關(guān)系以及知識庫中已有的謂詞進行了知識庫補全任務(wù)的測評, 包括主賓語預(yù)測和三元組分類兩個子任務(wù),我們的模型在這兩個測評任務(wù)上均顯著優(yōu)于已有方法。具體生成的模式圖結(jié)果表明,我們提出的模型能夠挖掘出具體且精確的語義。
4.2.2 相關(guān)工作?
隨著大規(guī)模結(jié)構(gòu)化知識庫的提出與廣泛使用,知識庫補全任務(wù)成為了近年來的熱門研究課題。該任務(wù)旨在對知識庫中已有的謂詞進行建模,通過預(yù)測潛在的 (?, , ?) 三元組,實現(xiàn)擴充知識庫的最終目的。到目前位置,在該課題上的研究方法主要分為兩類: 基于知識庫表示學習和基于規(guī)則推導(dǎo)。?
知識庫表示學習受到詞向量技術(shù)[59,60]的啟發(fā),將知識庫中的實體類比為單詞,每個實體具有一個向量表示,對應(yīng)連續(xù)語義空間上的一個點。作為連接不同實體的橋梁,知識庫中的每個謂詞都對應(yīng)著各自的向量或矩陣表示。通過定義不同的向量或矩陣之間的運算方式,這類方法可以計算每個三元組的置信度,以此實現(xiàn)對實體及謂詞的表示學習。?
RESCAL 模型[28]是一個基礎(chǔ)的知識庫向量模型,它基于實體向量和謂詞矩陣表示的雙線性運算。HOLE 模型[82]是 RESCAL 模型的改進,使用向量循環(huán)平移的技巧計算實體間的組合語義向量,大幅度降低了謂詞的表示維度。在眾多知識庫表示學習的方法中,有一組方法稱為隱距離模型,它們對三元組置信度的計算方式主要基于連續(xù)空間中的距離度量:將主賓語向量經(jīng)過某種方式的映射(翻譯)之后,距離越小,置信度越高。 最典型的研究工作為 TransE ,其核心思路在于盡可能使每個三元組 ( h, r, t ) 對應(yīng)的向量計算滿足??,即利用謂詞向量將連續(xù)空間中的主語進行平移,使其盡量與賓語重合。 為了能更好地表示多對多的關(guān)系,相關(guān)文獻 [30,31] 對 TransE 模型進行了改良。Wang 等人提出了 TEKE 模型[129],它對已有的翻譯模型進行改良,充分利用結(jié)構(gòu)化文本的知識,尋找三元組中單詞級別的共現(xiàn),并利用共現(xiàn)上下文微調(diào)實體和謂詞的向量表示。
基于規(guī)則推導(dǎo)的方法旨在用邏輯規(guī)則的形式表達謂詞的語義。例如 parent(??) ∧ parent(??) → grandparent(??) 是一個常識性的規(guī)則,我們可以通過規(guī)則的左側(cè)部分,在知識庫中尋找出更多的祖孫間的關(guān)系。Jiang 等人的工作[23]基于馬爾科夫邏輯,通過挖掘的規(guī)則對自動構(gòu)建的知識庫進行信息過濾。其它一些方法使用概率軟邏輯或關(guān)聯(lián)規(guī)則挖掘完成類似的任務(wù)[130,131]。Galárraga 等人提出的 AMIE [22]以及 AMIE+[132]系統(tǒng)則直接根據(jù)知識庫的三元組尋找置信度較高的一階邏輯規(guī)則。最新的一些研究著眼于在知識庫中尋找路徑形式的規(guī)則,通過挖掘大量可能的路徑,作為表示語義的特征。Lao 等人提出了 PRA 模型[25],通過在謂詞路徑上的隨機游走策略,衡量其連接一對實體的好壞程度,目標關(guān)系的語義等同于不同路徑特征的帶權(quán)組合。Gardner 等人對 PRA 模型進行改進,提出了 SFE 模型[26],除了捕捉連接主賓語的路徑以外,還從主賓語各自的知識庫子圖中挖掘獨立的特征,同時謂詞路徑的定義更加寬泛,允許在其中使用通配符表示任意謂詞。此外,Wang 等人提出了 CPRA 模型[79],這是對 PRA 模型的另一種改進,通過挖掘目標關(guān)系中的相關(guān)性,使得相似關(guān)系之間的路徑挖掘結(jié)果可以互相影響。 然而,通過開放式信息抽取獲得的三元組數(shù)量相對有限,不同的關(guān)系之間幾乎不存在重疊的實體對,在這種場景下,CPRA 模型效果等價于原始的 PRA 模型。
一些相關(guān)的研究嘗試在知識庫向量學習的基礎(chǔ)之上加入一定的邏輯規(guī)則。Guo 等人提出了 KALE 模型[133],其主要思想是將規(guī)則轉(zhuǎn)換為多個三元組之間的與或非邏輯操作,因此基于翻譯模型計算的三元組置信度得以在邏輯規(guī)則級別產(chǎn)生交互。TRESCAL 模型[134]在經(jīng)典的 RESCAL 模型中加入了知識庫的類型限制。而 Wang 等人的工作[135]使用整數(shù)線性規(guī)劃技術(shù),將知識庫向量表示和規(guī)則挖掘進行統(tǒng)一。?
狹義的知識庫補全任務(wù)只考慮知識庫中的謂詞,我們的工作將知識庫補全的場景進行了擴展。考慮到為了降低知識庫結(jié)構(gòu)與自然語言描述的差距,知識庫補全任務(wù)也可以針對自然語言中的二元關(guān)系。開放式信息抽取與這樣的任務(wù)相契合,既提供了全新謂詞,又有一定量的三元組用于補全學習。一些已有的工作也關(guān)注了自然語言關(guān)系到知識庫的映射。Zou 等人的工作[136]使用了非監(jiān)督學習的方式,利用 TF-IDF 特征尋找關(guān)系到謂詞路徑的匹配。Zhang 等人的工作[24]利用馬爾科夫邏輯網(wǎng)絡(luò)[137],學習自然語言關(guān)系對應(yīng)于不同候選謂詞路徑的概率。這些方法對關(guān)系的表示局限于路徑的形式,無法準確地描述一個形式簡單但具有組合語義的關(guān)系。我們的工作旨在理解具有復(fù)雜語義的關(guān)系,挖掘其包含的隱含限制條件,并通過具有 “路徑 + 分支” 結(jié)構(gòu)的模式圖進行語義建模。
4.2.3 任務(wù)定義?
在本章中,我們定義知識庫為 KB = { E, L, P }三部分組成,具體如下:E 為知識庫 KB 中所有實體集合;L 為 KB 中所有不同謂詞的集合; P 為 KB 中所有事實三元組集合,每一個三元組表示為 (?,?),其中 ?,? ∈ E,并且 ∈ L. 此外,知識庫中存在用 于描述一個實體所擁有類型的謂詞 IsA,為了簡化描述,本章中我們將不同類型也看做實體,同屬于集合 E 中。?
一個模式圖 S 同樣由三部分構(gòu)成,S = {?, X,??},具體如下: ? E,為模式圖中出現(xiàn)的具體的實體集合; 為實體變量的集合,每一個變量?∈?在模式圖中等同于占位符,為特定實體??∈ E 的抽象;模式圖中包含兩個特殊變量,即??,??∈ ,分別代表目標關(guān)系的主語和賓語實體;??為模式圖中的抽象三元組集合,每一個抽象三元組為 (??,??),其中 ∈ , ∈ ∪? 以及??∈ L。此外,模式圖 S 具有以下性質(zhì):?
? S 的表現(xiàn)形式為有向樹形結(jié)構(gòu),且根節(jié)點一定為主語的實體變量 ;?
? 連接主語變量 和賓語變量 的謂詞路徑,稱為模式圖 S 的骨架;?
? 骨架之外的所有抽象三元組稱為模式圖的限制(或分支);?
? 一個僅具有骨架而不包含任何限制的模式圖,稱為簡單模式圖,等價于謂詞路徑。
圖4–3 模式圖的一般形式。
圖4–3顯示了模式圖的一般形式。可以發(fā)現(xiàn),其中的每一條邊都至少連接了一個實體變量。模式圖代表著知識庫中,滿足相同特定結(jié)構(gòu)的一系列具體子圖。這些具體子圖稱為實例圖( Grounded Garph ),作為模式圖的實例化形式,所有的實體變量被替換為特定的實體??∈ E,且每一個抽象三元組 (??, ?) 在實例化之后均對應(yīng)存在于知識庫中的事實 ?(?,?) ∈ 。例如圖4–2中的模式圖,其不同的實例圖囊括了知識庫中所有已知的(個人,雙親,雙親父親)知識。對于實例圖中的主賓語對 (??,??),我們稱其為模式圖的一個支持實例。?
根據(jù)以上符號定義,給定知識庫 KB,自然語言關(guān)系 以及多個關(guān)系三元組{(?, , ?)},我們對關(guān)系的深度語義挖掘任務(wù)為,推導(dǎo)出一系列描述其語義的候選模式圖,并學習模式圖上的概率分布,以此表示自然語言關(guān)系所具有的多義性。
4.2.4 我們的方法?
本節(jié)主要介紹將自然語言關(guān)系映射為模式圖的具體方式。給定關(guān)系 以及其一系列 關(guān)系實例作為訓練數(shù)據(jù),我們首先依據(jù)給定的主賓語對(?,?),從它們支持的所有模式圖中尋找可能性較高的候選模式圖,然后對具有不同粒度的模式圖進行重要性衡量。由于沒有直接的<關(guān)系,模式圖>對作為訓練數(shù)據(jù),我們提出了一種基于遠距離監(jiān)督學習的方式,學習所有候選圖上的概率分布。
4.2.4.1 候選模式圖生成?
根據(jù)已有的關(guān)系實例,我們提出了一種高效的搜索算法,在知識庫上挖掘可能表示關(guān)系語義的候選模式圖。其基本思路在于,首先通過主賓語對尋找僅由骨架(謂詞路徑) 構(gòu)成的簡單模式圖,帶有限制的模式圖生成則以簡單模式圖為起點,不斷尋找與關(guān)系三元組契合的限制,并通過遞歸的形式將新的限制連接到已有的候選上,一步步生成具有復(fù)雜結(jié)構(gòu)的模式圖。?
簡單模式圖的生成基于實體對在知識庫中的直接連接。我們使用雙向廣度優(yōu)先搜索,為每個實體對提取由主語連接到賓語的所有謂詞路徑。考慮到一個自然語言關(guān)系通常由短語構(gòu)成,通常不會具有太多的語義跳躍,因此我們對謂詞路徑長度進行限制,避免生成大量無意義的路徑。基于前人的工作[24],我們限制謂詞路徑最長不超過3。此外,為了盡可能保證每一個候選圖的質(zhì)量,我們需要排除那些僅由偶然數(shù)據(jù)生成,實則偏離語義的候選圖。一個有效的識別方式利用了候選圖的支持率,即支持候選圖的實體 對占目標關(guān)系所有已知實體對的比例,記做??。我們在生成過程中指定支持率閾值??,并移除那些支持率 小于 的模式圖。綜上,對謂詞路徑和支持率的限制,可以使候選生成步驟過濾大量的干擾模式圖。?
在生成僅包含骨架的簡單模式圖之后,我們采用深度優(yōu)先搜索的方式獲取更多更加具體的模式圖。如圖4–4所示,“ has grandfater ”關(guān)系可以生成多種不同的簡單模式圖,在此基礎(chǔ)上,我們逐步添加表示復(fù)雜語義的分支,讓模式圖更加具體。這個步驟的挑戰(zhàn)在于,即便骨架長度得到限制,模式圖擴展的搜索空間仍然異常龐大。為了提高效率,我們使用優(yōu)先隊列維護搜索過程中獲取的高質(zhì)量模式圖,并進行剪枝操作,壓縮候選圖的搜索空間。具體步驟的偽代碼流程如算法4–1所示。Q 為存放模式圖的優(yōu)先隊列,初始化為空,最大容量為 B,搜索過程中始終維護具有最大支持率的前 B 個候選圖(第8行)。 使用支持率作為剪枝依據(jù)的原因有二:一方面如同骨架生成中的論述,支持率高的模式圖更不容易偏離語義,而支持率過低的候選圖更有可能引入了不必要的限制,導(dǎo)致無法匹配大量已知三元組;另一方面,隨著候選圖上添加的限制越多,支持率一定呈非嚴格單調(diào)遞減趨勢,因此這種單調(diào)性特征可以直接用于剪枝。函數(shù) Schema Expansion 以模式圖 S 為輸入,返回值為一個模式圖集合,其中每個模式圖均為在 S 上加入一條新的限制所形成的更復(fù)雜的候選,例如圖4–4中的 ( ,? gender,? Male ),( ,? profession,? Politician )等。?
圖4–4 “ has father ” 模式圖挖掘示例。?
為了使候選模式圖之間具有多樣性,我們期望最終保留的 B 個候選圖中能包含多種不同的骨架,因為不同骨架的模式圖通常代表更大的語義差別。因此在實際的搜索過程中,我們根據(jù)不同骨架的支持率,將整個大小為 B 的優(yōu)先隊列按比例分為多塊,每個骨架上的深度搜索將使用各自獨立的優(yōu)先隊列。這樣的做法可以提高并行工作效率,同時保證候選集合不被某個高支持率的骨架主導(dǎo)。
4.2.4.2 模式圖概率推理
當關(guān)系的候選圖生成完成之后,下一步需要從中推理出最具有代表性的那些模式圖。我們的目標是將關(guān)系的表示多義性表示為每個候選模式圖 S 的條件概率??,這樣不同粒度的模式圖之間可以直接比較。由于沒有直接的 < 關(guān)系,模式圖 > 訓練數(shù)據(jù),我們對概率分布的學習方式依靠三元組數(shù)據(jù)作為驅(qū)動,將學習過程建模為知識庫查詢場景上的一個最優(yōu)化問題:給定的一個關(guān)系實例中的主語(或賓語)實體,尋找最為合適的模式圖概率分布,使得依照此分布在給定實體周圍進行知識庫查詢時,能盡可能返回對應(yīng)的賓語(或主語)實體。?
為了能夠在不同粒度的候選模式圖之間得到平衡,我們使用最大化似然估計的方式定義目標函數(shù),尋找最優(yōu)的模式圖概率分布,使得查詢過程返回正確實體的概率最高。 似然函數(shù)定義如下:
(4-11)
其中,向??表示候選模式圖的概率分布,即??對應(yīng)條件概率??,且滿足??= 1。?,??分別表示關(guān)系的第??個實例中的主語和賓語。?
接下來,我們通過兩階段的生成過程,對概率??進行建模:首先根據(jù)模式圖上的多項分布,隨機挑選出一個模式圖 S ~??,然后對模式圖 S?進行查詢(即在知識庫上進行實例化),在所有主語為?的實例圖中,隨機挑選其中的一個實例圖,將其賓語實體返回。第一個階段中,模式圖的選取與主語 條件獨立,第二個階段由于固定了模式圖,因而與? 也條件獨立。考慮這些條件獨立之后,??的生成過程定義如下:?
(4-12)
概率??的值對應(yīng)模式圖??在知識庫上的查詢結(jié)果:令??代表模式圖 的實例圖中,所有主語實體為 的對應(yīng)賓語集合,以均勻分布從中挑選 一個實體??,公式展開如下:?
(4-13)
公式中的 α 為平滑參數(shù),在目標賓語無法通過 得到時,我們將概率定位很小的數(shù)值, 防止整個似然函數(shù)值變?yōu)?0。觀察可知,對于過于寬泛的模式圖 ,? 集合數(shù)量很大,從中隨機選擇到目標賓語的概率會因此降低;而對于過于具體的模式圖,會使得較多的實體對無法被支持,因此同樣會對似然帶來降低。由此可見,基于兩階段生成的概率建模方式,可以實現(xiàn)寬泛與具體模式圖之間的平衡,找到最適合的語義結(jié)構(gòu)。此 外,??的定義為公式4–12的對稱版,代表著給定賓語實體,查詢得到目標主語的概率。?
綜上,我們將模式圖推理問題轉(zhuǎn)化為了基于最大似然估計的最優(yōu)化任務(wù),并利用梯度下降算法對模型參數(shù)? 進行更新,使目標函數(shù)??值最大。具體使用的梯度下降算法為 RMSProp [138]。
4.2.5 實驗?
本節(jié)中,我們首先對推理出的模式圖進行直接的質(zhì)量測評,然后使用主賓語預(yù)測和三元組分類這兩個任務(wù)定量評估模式圖的語義表達能力,最后我們分析一些錯誤例子,討論當前模型的不足之處。
4.2.5.1 實驗設(shè)置
知識庫:為了和已有的知識庫向量表示方法進行公平比較,我們在實驗中使用了兩個 Freebase 的子集:FB3m 以及 FB15k 。FB15k 由 Bordes 等人提出[29],它包含了 14,951 個實體,1345 種不同謂詞,以及 483,142 個事實三元組。FB15k 的三元組被分為了訓練集、驗證集、測試集三部分,我們僅選用訓練集部分作為使用的知識庫。與此同時,我 們從 Freebase 2015年6月的版本抽取出最主要的 3,000,000 個不同的實體,并提取這些實體之間的聯(lián)系,構(gòu)成 FB3m 子集。FB3m 包含大約 50,000,000 個三元組,是 FB15 k的100倍。和完整的 Freebase 相比,FB3m 更加輕量化,但依然包含了大量有價值的信息。
關(guān)系數(shù)據(jù)集:我們使用了三個不同的關(guān)系數(shù)據(jù)集進行知識庫補全的相關(guān)實驗。在自然語言場景中,目標關(guān)系來源于開放式信息抽取系統(tǒng) PATTY [4],包含了大約 200,000 種不同的自然語言關(guān)系,以及百萬級別以上的三元組。由于 PATTY 使用維基百科作為語料庫,三元組中的所有實體均為維基百科頁面,因此每個實體均自動鏈接至 Freebase。 我們從 PATTY 中抽取子集“ PATTY-100 ”以及“??”用于實驗,PATTY-100 數(shù)據(jù)集與 FB15k 相匹配,其包含了100個具有較多數(shù)量三元組的關(guān)系,且三元組中所有實體均存在于 FB15k 中,平均每個關(guān)系包含180個關(guān)系實例。相對應(yīng)地,?與 FB3m 相匹配,同樣包含100個自然語言關(guān)系,平均每個關(guān)系包含388個實例。兩個數(shù)據(jù)集中,每一個關(guān)系的三元組均被分為訓練集、驗證集、測試集(64%: 16%: 20%)。第三個關(guān)系數(shù)據(jù)集屬于知識庫場景,我們從 FB15k 的“ people ”、“ location ”以及“ sports ”三個領(lǐng) 域內(nèi)挑選出37個熱門謂詞,并將它們的所有三元組抽取出,組合為數(shù)據(jù)集“ FB15k-37 ” 。每一個三元組出現(xiàn)在訓練集、驗證集、測試集的位置與FB15k 保持一致。FB15k-37 是 FB122 [133]的一個子集,保證其中每一個關(guān)系在測試集中都具有至少10個三元組。
用于比較的已有方法:對于知識庫向量表示的方法,我們與 TransE [29],KALE [133],TEKE [129] 以及 HOLE [82]進行比較。對于規(guī)則推導(dǎo)的方法,我們與 SFE [26]以及 AMIE+ [132]這兩個系統(tǒng)進行比較。我們考慮使用 CPRA 模型[79]作為另一個比較方法。但在 PATTY 相關(guān)的數(shù)據(jù)集中,不同關(guān)系之間幾乎不存在相同的實體對,因此 CPRA 模型將會退化為傳統(tǒng)的 PRA 模型[25],被更優(yōu)秀的 SFE 嚴格取代。這些模型在2.2節(jié)或4.2.2節(jié)中已有論述。
模型實現(xiàn)細節(jié):我們評估了模型的兩個變種,分別為生成帶限制的模式圖的 OursSC ,以及僅生成簡單模式圖的 Ours-SK 。以下是具體調(diào)參細節(jié):?
? 候選模式圖的數(shù)量,即優(yōu)先隊列容量 B 設(shè)為5000;?
? 模式圖骨架長度限制 τ 設(shè)為3,我們的方法可以支持更長的骨架,但具體測試中無明顯的效果提升,同時候選生成時間顯著增長,這里不展開討論;?
? 支持率閾值 γ 調(diào)參范圍為{ 5%,10%,15%,20% };?
? 平滑參數(shù) α 調(diào)參范圍為{ 1e-6,1e-5,1e-4 };?
? 學習率 η 調(diào)參范圍為{ 0.02,0.05,0.1 }。
用于比較的系統(tǒng)中,具有開源代碼的方法包括 AMIE+ ,SFE 以及 HOLE 。KALE 的代碼由作者提供,TransE 基于 HOLE 的代碼運行,并且我們在 TransE 的基礎(chǔ)上自行實現(xiàn)了 TEKE 模型。以上基于知識庫向量表示的模型均使用最大間隔損失進行訓練,對于 KALE 模型,學習率調(diào)參范圍為 { 0.02, 0.05, 0.1 },最大間隔參數(shù)范圍為{ 0.1, 0.12, 0.15, 0.2 };對于TransE,TEKE 以及 HOLE ,學習率調(diào)參范圍為{ 0.05,0.1,0.2 },最大間隔參數(shù)范圍為{ 0.5,1.0,1.5,2.0,2.5 }。
4.2.5.2 模式圖質(zhì)量測評
這一部分的實驗中,我們主要關(guān)注具有明確結(jié)構(gòu)的模式圖是否可以彌補 Freebase 和 之間的語義差距。我們首先通過具體的例子觀察不同的規(guī)則推導(dǎo)方法,即 Ours-SC,Ours-SK,AMIE+ 以及 SFE 所生成的代表性結(jié)構(gòu)。我們從 數(shù)據(jù)集中挑選出四個具有一定復(fù)雜性的關(guān)系,并在較大結(jié)構(gòu)的 FB3m 上學習各自的規(guī)則。對于 Ours-SC 和 Ours-SK,我們使用選擇概率最高的模式圖作為代表性結(jié)構(gòu)。SFE 模型中,每個規(guī)則(謂詞路徑)都對應(yīng)一個特征,我們選擇特征權(quán)重最高的規(guī)則作為代表性結(jié)構(gòu)。 AMIE+ 依靠準確率對規(guī)則進行排序,因此我們挑選準確率最高的規(guī)則,若多個規(guī)則準確率相同,我們則從中手動選擇最合適的規(guī)則。
圖4–5 不同的規(guī)則推導(dǎo)系統(tǒng)對四個復(fù)雜關(guān)系生成的代表性結(jié)構(gòu)。?
圖4–5列出了四個自然語言關(guān)系,以及不同系統(tǒng)生成的最佳結(jié)構(gòu)。其中,圓點表示實體或變量,左右兩個黑色圓點分別代表??和??。方塊代表知識庫中的類型,菱形則代表用于維護多元關(guān)系的輔助節(jié)點。從這些例子中可以發(fā)現(xiàn),Ours-SC 的模式圖所具有的分支結(jié)構(gòu),可以帶來更加精確的語義。對比僅生成骨架的 Ours-SK ,帶有限制的查詢圖在每個例子上都表達了幾乎完全正確的語義。另一方面,AMIE+ 和 SFE 輸出的最佳結(jié)構(gòu)不盡如人意。AMIE+ 按照準確率對規(guī)則排序,因此總是傾向于更具體的規(guī)則,但犧牲了召回率。同時隨著規(guī)則長度提升至 4 甚至更高,AMIE+ 系統(tǒng)消耗了大量內(nèi)存,無法返回任何結(jié)果。SFE 生成的規(guī)則中包含 [ Any-Rel ] 代表任意謂詞,因此可以生成更多靈活的路徑作為特征,但顯然其中的大部分都不具有清晰的語義,人類難以直接理解。?
作為補充實驗,我們對 Ours-SC 和 Ours-SK 生成的模式圖進行了人工測評。對每一個自然語言關(guān)系,我們從中抽取出至多前 5 個概率值至少為 0.05 的模式圖,并由三位標注者進行人工打分,分值選擇范圍為{ 0,0.5,1 },分別代表“不相關(guān)模式圖”(骨架層次已出現(xiàn)語義偏離),“部分匹配”(骨架語義正確,但其余限制需要改善)以及“完全匹 配”(骨架和限制的語義均無明顯偏差)。我們將三位標注者的打分進行平均,得到每一 個模式圖的標注分值,并計算排名前 n 的所有模式圖的平均分值,記做AvgSc@n 。三位標注者之間的 Kappa 系數(shù)為 0.541,具有穩(wěn)定的相關(guān)性。表4–4列出了不同的 AvgSc@n 分值,Ours-SC 在骨架的基礎(chǔ)上挖掘額外的語義限制,將結(jié)果提高了約13%。
表4–4 模式圖列表的 AvgSc@n 測評結(jié)果。
4.2.5.3 主賓語預(yù)測任務(wù)測評?
主賓語預(yù)測任務(wù)的目標是預(yù)測三元組??或??所缺失的賓語或主語。測試集中的每一個三元組都對應(yīng)兩個這樣的預(yù)測任務(wù)。公式4–12代表著給定一端實體,生成另一端未知實體的概率,因此對每一個帶有未知實體的待預(yù)測三元組,我們根據(jù)該公式計算生成不同實體的概率,并衡量答案實體的概率排名高低。我們在實驗中使用了兩個評價指標,分別為 MRR 和 Hits@n ,前者衡量答案實體在所有預(yù)測任務(wù)中的平均排名,后者關(guān)注在多少比例的預(yù)測任務(wù)中,答案實體的概率排在前 n 位。不同的實驗方法通過驗證集的 MRR 分值進行獨立調(diào)參。
以上對排名高低的衡量暗含著一個假設(shè):除了答案實體之外,其余實體均為錯誤實體。然而考慮到關(guān)系可能具有的一對多性質(zhì),對于一個待預(yù)測的三元組,除了答案實體之外,還可能存在其它實體與給定的已知實體匹配,嚴格來講,這些實體雖然不同于唯一的答案,但也不應(yīng)該算作錯誤。因此,我們使用和 TransE [29]相同的設(shè)定,在測評中引入兩種不同的模式,分別為原始模式和過濾模式:在過濾模式中,計算每個預(yù)測的答案實體排名時,均忽略不同于答案的其余正確實體,因此過濾模式下,排名值可能會提高;而原始模式則不做任何的過濾。
我們使用 FB15k 作為知識庫進行實驗,并與其余模型進行比較。在接下來的實驗中, 為了方便比較,我們的模型同一參數(shù) γ = 10%,α = 1e?4,以及 η = 0.1,對應(yīng)著 PATTY100 驗證集上,在過濾模式下的最高 MRR 結(jié)果。表4–5和表4–6分別展示了在 PATTY-100 和 FB15k-37 數(shù)據(jù)集上的實驗結(jié)果。在兩個數(shù)據(jù)集上,SFE 模型的代碼均碰到了內(nèi)存問題,因此表格中沒有列出對應(yīng)的結(jié)果。對于 PATTY-100 中的關(guān)系,我們基于模式圖的語義表示方法,其效果優(yōu)于其它用于比較的規(guī)則推導(dǎo)與知識庫向量表示模型,以及僅生成簡單模式圖的變種。在 FB15k-37 數(shù)據(jù)集上,Ours-SC與 Ours-SK 的結(jié)果十分接近,這主要是因為知識庫上的一部分謂詞具有等價形式,例如??和??互為相反關(guān)系,對于這些關(guān)系,只需要依靠骨架結(jié)構(gòu)就可以精確描述語義。對比兩張表格可以發(fā)現(xiàn),對于所有不同的模型和實驗?zāi)J?#xff0c;自然語言關(guān)系上的主賓語預(yù)測結(jié)果都低于對應(yīng)的知識庫謂詞上的結(jié)果。主要原因有兩點:1) FB15k-37 上的每一個謂詞平均包含接近千級別的訓練三元組,而 PATTY-100 中的每個關(guān)系平均只有115個訓練數(shù)據(jù);2)自然語言關(guān)系具有更多歧義,開放式信息抽取的結(jié)果會包含多種語義,而且還要考慮抽取錯誤的情況,相比之下,知識庫上的謂詞及三元組的制定經(jīng)過了部分人工干預(yù),因此歧義更少。
?表4–5 在 PATTY-100 上進行主賓語預(yù)測的測評結(jié)果。?
表4–6 在 FB15k-37 上進行主賓語預(yù)測任務(wù)的測評結(jié)果。?
4.2.5.4 三元組分類任務(wù)測評
三元組分類任務(wù)的目標是預(yù)測一個未知三元組 (?, , ?) 是否描述了一個正確的客觀事實。考慮到這是個二分類任務(wù),測試數(shù)據(jù)中需要包含負樣本三元組,因此我們使用和 KALE [133] 相同的生成策略,對測試集和驗證集中的每個三元組生成10個不同的負樣本,其中5個三元組替換了主語,另外5個替換了賓語。為了保證負樣本不至于顯得 過于錯誤,我們保證用于替換的主語(或賓語)都曾出現(xiàn)在目標關(guān)系的某個已知三元組的同樣位置上。
對于每一個目標關(guān)系,我們通過公式4–11計算各個未知三元組的似然值,以此作為置信度對所有測試集的所有正負樣本進行排序。我們使用 FB15k 作為知識庫進行了實驗,并使用 MAP( Mean Average Precision )作為測評指標,衡量不同的模型在三元組分類任務(wù)上的效果。表4–7列出了 PATTY-100 和 FB15k-37 數(shù)據(jù)集上的效果,我們的模型在兩個數(shù)據(jù)集上均大幅度優(yōu)于其它方法。此外我們發(fā)現(xiàn),僅生成簡單模式圖的方法效果要優(yōu)于生成完整模式圖的做法。我們對實驗數(shù)據(jù)進行了分析,造成這個現(xiàn)象的原因源于負樣本生成方式的天然缺陷。例如對于“ father of ”關(guān)系,我們期望負樣本中能包含表示母子關(guān)系的實例,識別這種負樣本需要較高難度,必須依靠額外限制才能和正樣本進行區(qū)分。然而,負樣本的生成方式?jīng)Q定了主語只能替換為某個隨機小孩的父親,判斷三元組正確與否主要依靠骨架的正確性,因而很難體現(xiàn)模式圖的額外限制為給語義理解帶來的優(yōu)勢,減少候選模式圖的數(shù)量和復(fù)雜度反而能得到更好的效果。
表4–7 三元組分類任務(wù)的 MAP 測評結(jié)果。
4.2.5.5 錯誤分析
對于一些自然語言關(guān)系,我們的模型可能難以尋找出較為正確的模式圖。我們對結(jié)果進行了分析,并總結(jié)出以下幾類主要錯誤。?
1. 開放式信息抽取提供的關(guān)系三元組存在錯誤。考慮到 PATTY 主要利用依存語法分析對句子進行關(guān)系識別,語法分析本身的偏差將導(dǎo)致生成錯誤的三元組。例如對于關(guān)系 “ served as ”,給定句子 “ Dennison served as the 24th Governor of Ohio and as U.S. PostmasterGeneral... ”,PATTY 提取的實體對( William Dennison Jr.,Ohio )有誤,正確的賓語應(yīng)為“Governor of Ohio”。?
2. PATTY 數(shù)據(jù)集中,每個關(guān)系實際代表著一個關(guān)系同義集,即由多個具有相似結(jié)構(gòu)的關(guān)系組成的組合,這導(dǎo)致部分關(guān)系同義集混入了語法相似但語義不同的關(guān)系,產(chǎn)生本不存在的歧義。以 PATTY 中的關(guān)系同義集“ ’s wife ”為例,其中混入了少部分可能由 “ the wife of ” 產(chǎn)生的三元組,其中主語為妻子,賓語反而為丈夫。在混入的三元組干擾下,模型會誤以為該關(guān)系的準確語義為不帶有性別限制的配偶關(guān)系,因此正確的模式圖很難獲得較高的概率。?
3. 對于部分關(guān)系,知識庫本身缺乏用于描述其語義的謂詞。對于一些瑣碎的自然語言關(guān)系例如“ talk to ”,知識庫顯然不包含這類事實。但即便對于一些不那么瑣碎的關(guān)系, 知識庫依然可能缺乏必要的謂詞。例如關(guān)系“ ( singer ) performed in ( LOC ) ”描述的是歌手和演唱會舉辦地的聯(lián)系,但Freebase 中并不包含類似于 place_visited 或 hold_concerts_in 的謂詞,因此難以通過已有知識表示目標關(guān)系的語義。?
4. 由于搜索空間的限制,部分有意義的模式圖無法在候選生成步驟被過濾。例如關(guān)系“ ( actor ) starring with ( actor ) ”,由于 Freebase 通過輔助節(jié)點( Mediator )維護多元關(guān)系,這使得最合適的骨架長度為4,并不滿足候選生成的骨架長度限制,因此模型無法得到這樣的模式圖。
4.3 本章小結(jié)?
本章的研究著眼于自然語言中的二元關(guān)系,根據(jù)關(guān)系已有的三元組實例,推理出其所具有的語義。第一部分的工作將關(guān)系模式定義為知識庫中的主賓語類型搭配,并利用知識庫的類型層次結(jié)構(gòu)實現(xiàn)模式推理。我們提出的方法基于一個直觀的思路,即盡可能使用具體的模式匹配更多的已知實例。在 ReVerb 上進行的人工測評實驗表明,此方法推理出的最具有代表性的模式具有較高的準確度,效果優(yōu)于傳統(tǒng)的選擇偏好模型。?
第二部分的工作直接挖掘關(guān)系語義和結(jié)構(gòu)化知識之間的匹配。為了使語義理解具有良好的可解釋性,我們提出了基于模式圖的規(guī)則推導(dǎo)模型,模式圖是對傳統(tǒng)路徑規(guī)則的泛化,以 “路徑 + 分支” 的結(jié)構(gòu)描述具有更多限制的復(fù)雜語義。該模型將關(guān)系語義表示為多個模式圖的概率分布,以適應(yīng)關(guān)系的多義性。我們對 PATTY 中的熱門關(guān)系進行模式圖推理,多個具體例子表明,基于模式圖的結(jié)構(gòu)表示有能力描述更加細化的關(guān)系語義,而且質(zhì)量優(yōu)于其它已有的規(guī)則推導(dǎo)模型。此外,基于模式圖的語義表示還可用于知識庫補全任務(wù)中,在主賓語預(yù)測和三元組分類兩個子任務(wù)上,效果優(yōu)于其它規(guī)則推導(dǎo)及知識庫向量模型。?
后續(xù)的研究主要包括兩部分:數(shù)據(jù)預(yù)處理方面,關(guān)系三元組的實體鏈接需要優(yōu)化, 主語和賓語都可能存在不可鏈接實體,需要進行識別從而過濾雜亂三元組;語義理解模型方面,本章的兩個工作均基于數(shù)據(jù)驅(qū)動,對于已知三元組較少的長尾關(guān)系,模型效果會明顯降低,如何利用關(guān)系本身的短語信息作為額外特征進行推理,是值得研究的方向。?
參考文獻:
(文中提及的部分參考文獻在01#02#)
了解更多信息請點擊知識工場網(wǎng)站主頁:http://kw.fudan.edu.cn/
合作意向、反饋建議請聯(lián)系:
info.knowledgeworks@gmail.com
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的自然语言理解 03#的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 面向 cQA 的跨语言问题
- 下一篇: 图谱实战 | 徐美兰:深度应用驱动的医学