论文浅尝 | 基于知识库的自然语言理解 02#
本文轉(zhuǎn)載自公眾號:知識工場。
羅康琦,上海交通大學(xué)計(jì)算機(jī)系2019屆博士,研究方向?yàn)樽匀徽Z義理解和知識圖譜。2012年獲得華中科技大學(xué)軟件工程學(xué)士學(xué)位,現(xiàn)就職于京東數(shù)據(jù)科學(xué)實(shí)驗(yàn)室(Data Science Lab)。他曾在AAAI,IJCAI,EMNLP等國際頂級會議上發(fā)表多篇論文。
本章研究的實(shí)體鏈接任務(wù)中,待鏈接文本為以源語言編寫的互聯(lián)網(wǎng)表格,而知識庫則以目標(biāo)語言編寫,因此我們將其稱為跨語言的表格實(shí)體鏈接。為了捕捉不同于傳統(tǒng)實(shí)體鏈接任務(wù)的特性,我們提出了基于神經(jīng)網(wǎng)絡(luò)和跨語言詞向量的表格鏈接模型,旨在讓不同語言的連續(xù)特征空間得以兼容,并捕捉表格具有的多種粒度的匹配特征。
3.1 概述?
海量的互聯(lián)網(wǎng)文本信息中,充斥著以 HTML 編寫的表格,即互聯(lián)網(wǎng)表格[97,98]。和 純文本相比,互聯(lián)網(wǎng)表格中的行列形式攜帶了非常有價(jià)值的結(jié)構(gòu)化信息。為了能讓機(jī)器 理解,并且很好的處理表格中的信息,第一個(gè)步驟就是需要識別每個(gè)單元格中文本內(nèi)容 所對應(yīng)的實(shí)體,并映射到一個(gè)標(biāo)準(zhǔn)詞庫,或是知識庫上,例如維基百科或 Freebase。這樣的一個(gè)在互聯(lián)網(wǎng)表格上進(jìn)行實(shí)體鏈接的任務(wù),在本章節(jié)被稱為表格鏈接[57,99]。
對于表格鏈接任務(wù),已有的研究工作[51,57] 主要針對英文表格,由于使用知識庫也為英文,表格鏈接是在單一語言場景中進(jìn)行的。然而,當(dāng)需要鏈接的表格以其它語言編 寫的時(shí)候,對應(yīng)語言的非英文知識庫往往不夠全面,無法涵蓋目標(biāo)表格中提及的所有實(shí) 體。例如中文版維基百科,其中包含的實(shí)體(頁面)數(shù)量僅為英文維基百科的1/6左右。 基于不同語言知識庫大小上的差異,本章探尋一種全新的方式將非英文表格與英文知識庫相連,該任務(wù)也被稱為跨語言表格鏈接。如圖3–1所示,中文表格里的電影“郵差”在中文維基百科里沒有對應(yīng)的實(shí)體,但存在對應(yīng)的英文維基實(shí)體“Il Postino: The Postman” ,因此可以建立跨語言的鏈接。??
幫助目標(biāo)知識庫補(bǔ)充事實(shí)三元組,是我們嘗試跨語言表格鏈接的另一個(gè)動機(jī)。英文知識庫比其它語言知識庫更加龐大,也更加結(jié)構(gòu)化,但仍然包含許多長尾實(shí)體。這些實(shí)體僅出現(xiàn)知識庫的極少數(shù)事實(shí)三元組中,例如別國的電影、名人等,考慮到英文知識庫的貢獻(xiàn)者更多以英語為母語,這些實(shí)體的相關(guān)信息就很容易被忽略。另一方 面,海量非英文的互聯(lián)網(wǎng)表格成為了與長尾實(shí)體相關(guān)的豐富的語義信息來源。例如, 圖3–1描述了電影與它的原產(chǎn)國之間的關(guān)系。國產(chǎn)電影 “線人” 有對應(yīng)的英文維基頁 面 “The_Stool_Piegon_(2010_?lm)” , 但與之相應(yīng)的 Freebase 實(shí)體卻缺少許多相關(guān)的知識。若我們準(zhǔn)確將該電影鏈接至維基百科,并根據(jù)表格前兩列的多個(gè)實(shí)體對推理出關(guān)系 film_country,那么就可為知識庫補(bǔ)充新的事實(shí)。?
圖3–1 中文表格到英文知識庫的跨語言鏈接示例。?
具體論述我們提出的跨語言表格鏈接方法之前,首先來討論兩種樸素的做法。第一種方式主要基于已有單一語言的表格鏈接技術(shù),將表格映射到語言一致的非英文知識庫,然后再利用知識庫之間存在的跨語言鏈接,將實(shí)體翻譯至英文知識庫。例如不同語言的維基百科之間就存在著人工編輯好的跨語言鏈接。這種方式的主要問題在于:1)非英文知識庫的信息量較低,可能無法覆蓋每一個(gè)單元格的實(shí)體;2)并不是每個(gè)非英文知識庫都會存在和跨語言鏈接。?
第二種做法中,整個(gè)非英文表格的內(nèi)容首先直接被翻譯成英文,然后整個(gè)問題便退化成英文上的表格鏈接,以往方法可以直接套用。它與遠(yuǎn)距離監(jiān)督模型很相似,各單元格的(非英文名稱,英文實(shí)體)對并不直接作為訓(xùn)練數(shù)據(jù)。此法的缺陷在于對已有翻譯工 具準(zhǔn)確率的高度依賴:一方面,文本翻譯過程僅生成單一結(jié)果,一旦錯誤則對后續(xù)鏈接步驟影響很大;另一方面,翻譯工具如同黑盒,無法根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化。?
在本章中,為了使研究具有普適性,我們忽略不同語言知識庫之間的跨語言鏈接, 嘗試在不使用任何非英文知識庫進(jìn)行過渡的情況下,解決跨語言的表格鏈接任務(wù)。據(jù)我們所知,本章節(jié)提出的解決方案,是對跨語言表格鏈接的第一次嘗試。?
對于實(shí)體鏈接任務(wù)而言,無論是否跨語言,第一個(gè)步驟總是為每個(gè)單元格生成一組候選實(shí)體,之后整個(gè)任務(wù)轉(zhuǎn)換為排序問題,對每單元格尋找與其描述最接近的候選實(shí)體。主要的技術(shù)挑戰(zhàn)在于表格描述和知識庫來自不同的語言,無法依靠任何字面上的相似特征。此外,表格中缺少純文本里的謂語、狀語等相關(guān)上下文,給單個(gè)實(shí)體的消歧義帶來了困難。?
為了解決上述的兩個(gè)挑戰(zhàn),我們提出了基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合模型來解決跨語言表格鏈接問題,它具有以下三個(gè)特點(diǎn)。首先,模型主體基于跨語言詞向量,我們將單元格的描述短語、上下文、以及知識庫的實(shí)體映射到不同語言對應(yīng)的連續(xù)向量空間作為語義特征表示,并且使用線性變換的方式,實(shí)現(xiàn)不同語言的向量空間統(tǒng)一。其次,模型充分利用表格中同一行列的實(shí)體所具有的相關(guān)性,并通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同粒度的相關(guān)性特征。最后,模型基于聯(lián)合訓(xùn)練思路,以優(yōu)化整張表格的匹配程度作為目標(biāo)函數(shù),使用成對排序損失函數(shù)進(jìn)行參數(shù)學(xué)習(xí)以及多輪迭代的預(yù)測方式,對新的表格完成鏈接。?
本章的貢獻(xiàn)可以總結(jié)為以下四個(gè)部分:?
1.我們首次嘗試在跨語言場景上進(jìn)行表格鏈接;
2. 我們提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練模型,能有效捕捉原始表格與候選鏈接表格的語義相關(guān)性,并消除不同語言之間的語義間隔;?
3. 聯(lián)合模型除了捕捉單個(gè)單元格描述與候選實(shí)體間的語義關(guān)聯(lián)特征,還提出了一 種一致性特征,用于捕捉候選鏈接表格內(nèi)部不同實(shí)體間的聯(lián)系,有效提升模型的預(yù)測準(zhǔn)確率;?
4. 我們構(gòu)建了從中文到英文的跨語言表格鏈接數(shù)據(jù)集用于實(shí)驗(yàn),本章提出的模型效果顯著優(yōu)于其它基線模型,同時(shí)我們進(jìn)行了一系列分析實(shí)驗(yàn),以驗(yàn)證模型各部分的有效性。
3.2 相關(guān)工作
對互聯(lián)網(wǎng)表格的研究最早開始于 Cafarella 等人的工作[97],文中指出大約有 1.54 億表格可以作為高質(zhì)量的關(guān)系數(shù)據(jù)源。例如文獻(xiàn) [100,101] 關(guān)注于從表格中尋找不同列之間的關(guān)系,從而實(shí)現(xiàn)向知識庫中補(bǔ)充新的三元組。這些工作都假定實(shí)體鏈接已完成,而若要對更廣范圍的表格數(shù)據(jù)進(jìn)行關(guān)系挖掘,表格鏈接始終是其前置步驟,鏈接準(zhǔn)度直接決定了后續(xù)步驟的質(zhì)量。?
和純文本上的實(shí)體鏈接任務(wù)不同,表格文本上的鏈接聚焦于表格中的每一個(gè)單元格,并且對于任何一個(gè)待鏈接的單元格,其它同行或同列的單元格與其有著更加密切的語義聯(lián)系。目前已有的表格鏈接研究主要基于特征工程。Limaye 等人[51]以 YAGO 為知識庫,解決更加寬泛的表格鏈接任務(wù),包括將單元格鏈接至實(shí)體、列頭鏈接至類型,以 及兩列之間的關(guān)系鏈接至謂詞,同時(shí)創(chuàng)建了 WebManual 數(shù)據(jù)集。作者提出了一個(gè)概率圖模型用于同時(shí)完成不同的鏈接子任務(wù),并通過人為定義的多種勢函數(shù)表示單元格、實(shí)體、類型、謂詞語間的組合特征,整個(gè)表格鏈接的目標(biāo)函數(shù)為多種勢函數(shù)的連乘,不同子任務(wù)的決策互相影響,使得模型在捕捉單個(gè)單元格與實(shí)體相匹配的同時(shí),也能兼顧實(shí)體與列頭類型的一致性,以及不同列實(shí)體間與特定謂詞的相關(guān)性。Bhagavatula 等人[57] 利用了表格上下文的詞匯信息,對于待鏈接的單元格,將其行或列方向上的其它單元格文本合并形成上下文詞袋,與候選實(shí)體所對應(yīng)的詞匯進(jìn)行相似度計(jì)算,得到多個(gè)相似度特征用于模型訓(xùn)練,并采用迭代更新方式進(jìn)行預(yù)測。Wu 等人[99]首次嘗試對中文表格進(jìn)行鏈接,提出的模型首先構(gòu)建由單元格和所有候選實(shí)體組成的連通圖,然后在圖中進(jìn)行類似 PageRank 算法[102]的隨機(jī)游走,以選擇最佳鏈接結(jié)果,因此是一種非監(jiān)督學(xué)習(xí)方式。候選實(shí)體是否同行列決定了圖中是否存在直接相連的邊,而單元格與實(shí)體、實(shí)體與實(shí)體之間所連邊的權(quán)重則由預(yù)定義的相似度公式計(jì)算,使用了編輯距離、詞袋相似度、 實(shí)體于三元組中共現(xiàn)等特征。區(qū)別與以上研究,本文的工作基于深度學(xué)習(xí),嘗試不依賴常用的相似度計(jì)算公式,而是利用神經(jīng)網(wǎng)絡(luò)挖掘表格和目標(biāo)實(shí)體在多個(gè)粒度上的特征。
跨語言的實(shí)體鏈接的主要目的是將文本中的實(shí)體短語鏈接至另一個(gè)語言構(gòu)建的知識庫上,近幾年的 TAC-KBP 數(shù)據(jù)集[103-105]中包含了跨語言的實(shí)體鏈接任務(wù)。為了解決此類問題,McNamee 等人[106]提出了一種基線方法,利用已有的翻譯工具將外文文本轉(zhuǎn)換為英語,再使用傳統(tǒng)的單語言鏈接模型完成任務(wù)。為了盡可能減少對翻譯工具的高度依賴,模型需要能學(xué)習(xí)同一個(gè)實(shí)體或概念在不同語言下的抽象表達(dá),并通過特定運(yùn)算體現(xiàn)出不同抽象表達(dá)之間的聯(lián)系,以完成語義的跨語言兼容。??
基于跨語言詞向量的鏈接模型是一種可行的解決方案,跨語言詞向量的相關(guān)內(nèi)容已在2.1.3節(jié)中介紹。Tsai 等人[107]首先分別訓(xùn)練英文和外文的詞向量,再用典型相關(guān)分析( CCA )學(xué)習(xí)各自語言的轉(zhuǎn)移矩陣,使得不同語言詞向量位于同一連續(xù)空間,之后依據(jù)該詞向量計(jì)算短語和實(shí)體在不同粒度上下文中的余弦相似度,形成多個(gè)特征進(jìn)行訓(xùn)練。Sil 等人[108] 提出了更加復(fù)雜的深度學(xué)習(xí)模型,以學(xué)習(xí)短語上下文和實(shí)體在句子級別和單詞級別的相似特征,同時(shí)在實(shí)驗(yàn)中比較了 CCA 、均方誤差等多種生成跨語言詞向量的方式。除了跨語言詞向量以外,Zhang 等人提出的跨語言主題模型[109]也可用于描述不同語言上的相同語義。傳統(tǒng)的 LDA 主題模型[110] 旨在描述文檔的語義表示,通過對“文檔 —主題” 與 “主題—單詞” 間的概率進(jìn)行建模,將一個(gè)文檔表示為抽象主題上的概率分布。考慮到同一個(gè)實(shí)體在不同語言中的維基頁面,雖然單詞不同,但其主題十分相似, 因此雙語 LDA 模型中,同一個(gè)抽象主題對應(yīng)不同語言上的兩個(gè) “主題-單詞” 概率分布, 從而外語上下文和英語維基頁面之間可以在主題層面上概率分布比較,實(shí)現(xiàn)鏈接過程。
本文的工作是表格鏈接和跨語言實(shí)體鏈接兩者的綜合體現(xiàn),同時(shí)也是首次對此問題進(jìn)行研究。
3.3 任務(wù)規(guī)范定義?
輸入的互聯(lián)網(wǎng)表格是一個(gè)具有行和列的矩陣,每一個(gè)單元格的內(nèi)容是由語言(例如中文)描述的詞語序列。給定由另一種語言(例如英文)編寫,并包含大量實(shí)體的知識庫,跨語言表格鏈接的任務(wù)是尋找對應(yīng)的目標(biāo)鏈接表格,使得鏈接表格中的每一個(gè)實(shí)體對應(yīng)單元格內(nèi)容的消歧義表示。
在具體場景中,輸入的表格包括一些無法被鏈接的單元格,例如數(shù)字、日期、時(shí)間以及一些知識庫中尚不存在的新興實(shí)體。一些已有工作[111] 主要負(fù)責(zé)在互聯(lián)網(wǎng)表格中識別這些數(shù)字或時(shí)間實(shí)體,因此在本章中,我們不關(guān)注一個(gè)單元格是否能被鏈接的判斷方式。具體到任務(wù)定義中,P 為輸入表格中所有可以被鏈接的單元格坐標(biāo)所構(gòu)成的集合,并且我們假設(shè)在訓(xùn)練集和測試集中,每個(gè)輸入表格對應(yīng)的可鏈接位置集合 P 都是已知的。?
傳統(tǒng)的實(shí)體鏈接方法通常在模型中定義一個(gè)評分函數(shù),用于衡量文本?與目標(biāo)實(shí)體之間的相關(guān)程度。在表格鏈接任務(wù)中,這樣的做法等同于將不同的單元格分割開,單獨(dú)計(jì)算相似度。然而缺陷在于,相鄰或是同行列的目標(biāo)實(shí)體之間的交互完全無法體現(xiàn)在鏈接模型中。為了將目標(biāo)鏈接表格中不同實(shí)體間的耦合關(guān)系融入任務(wù)中,我們定義了在表格層面的評分函數(shù),并以此預(yù)測最佳的鏈接表格,如下所示:?
?(3-1)
其中表示由生成的所有候選鏈接表格。該函數(shù)描述了輸入表格與候選實(shí)體表格之間的整體相關(guān)性分?jǐn)?shù)。
3.4 我們的方法?
本節(jié)中,我們主要闡述使用聯(lián)合訓(xùn)練模型解決跨語言表格鏈接的具體細(xì)節(jié)。圖3–2為整個(gè)模型的示意圖。之所以將整個(gè)模型成為 “聯(lián)合訓(xùn)練模型” ,是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的輸入包含了整個(gè)互聯(lián)網(wǎng)表格,以及對應(yīng)的一個(gè)候選鏈接表格,而模型的輸出代表兩者的相關(guān)性分?jǐn)?shù)。
圖3–2 基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練模型示意圖。?
具體而言:1) 我們首先對表格中的每一個(gè)單元格內(nèi)容生成一系列知識庫中的候選實(shí)體;2)模型對單元格詞組和實(shí)體進(jìn)行向量編碼,并學(xué)習(xí)基于它們向量表示的指示特征以及上下文特征;3)為了使不同語言下的語義向量互相兼容,模型利用雙語翻譯矩陣將向量表示從中文轉(zhuǎn)為英文;4) 模型從候選表格的內(nèi)部學(xué)習(xí)第三類特征,即候選實(shí)體間的一致性特征。本節(jié)最后將介紹訓(xùn)練和測試的具體流程,以及整個(gè)模型中重要的一些實(shí)現(xiàn)細(xì)節(jié)。
3.4.1 候選實(shí)體生成
我們對中文表格的每一個(gè)單元格內(nèi)容生成一系列英文知識庫中的候選實(shí)體。在本章的研究中,我們使用英文維基百科作為知識庫。由于提出的方法不使用任何中文知識庫進(jìn)行過渡,為了實(shí)現(xiàn)語言轉(zhuǎn)換,我們首先利用已有的翻譯工具生成中文詞組對應(yīng)的多種翻譯結(jié)果。接下來,對于每一個(gè)翻譯結(jié)果,我們都使用預(yù)先定義的啟發(fā)式規(guī)則,將英文詞組轉(zhuǎn)換為候選實(shí)體。這些實(shí)體的來源主要包括:1) 名稱與翻譯完全匹配的實(shí)體; 2)維基百科中,完全匹配的錨文本所指向的實(shí)體;3)通過計(jì)算編輯距離( Edit Distance ) 進(jìn)行模糊匹配,并且相似度足夠高的實(shí)體。以中文詞組 “疑犯追蹤” 舉例,不同的翻譯工具生成的結(jié)果不同,例如 “ person of interest ” 或者 “ suspect tracking ” 。整體候選實(shí)體來自于每一個(gè)翻譯結(jié)果的映射,例如維基百科中的實(shí)體 “ person of interest ” ,“ person of interest (tv series) ”以及“ suspect (1987 ?lm) ”。
3.4.2 向量表示及跨語言模塊
給定一個(gè)單元格的字面描述短語,令代表其自身的語義向量,也稱為指示向量。通常單元格字面描述較短(至多三個(gè)詞語),因此模型計(jì)算字面描述包含的詞向量的平均,作為的值。用表示候選實(shí)體對應(yīng)的實(shí)體向量,詞向量和實(shí)體向量分別通過中文和英文的維基百科文本進(jìn)行預(yù)訓(xùn)練。?
考慮到語言的天生差異,且兩者分別訓(xùn)練,因此詞向量和實(shí)體向量所在維度空間并不兼容,這使得我們無法簡單地對來自不同空間的向量進(jìn)行比較和計(jì)算。為了應(yīng)對這個(gè)問題,模型中引入了雙語翻譯層,將向量從一個(gè)語言的維度空間投影至另一個(gè)空間。 為中文語義空間上對的語義表示,該層通過線性變換將其映射為,即英文維度空間上的語義向量:。其中為變換矩陣,為偏置向量,兩者均為模型參數(shù),隨著訓(xùn)練迭代而更新。?
另外,我們通過少量的雙語詞對,對雙語翻譯層的參數(shù) ,進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練過程的損失函數(shù)定義如下:?
(3-2)
即最小化真實(shí)的英文詞向量與線性變換后的詞向量之間的歐氏距離。關(guān)于初始化,以及翻譯預(yù)訓(xùn)練的更多細(xì)節(jié),將在3.4.6節(jié)中進(jìn)行敘述。
3.4.3 指示特征與上下文特征?
如圖3–2所示,最左邊的部分對應(yīng)指示特征模塊,中間的部分對應(yīng)上下文特征模塊。 兩者的共同點(diǎn)在于,它們都關(guān)注互聯(lián)網(wǎng)表格與候選鏈接表格 之間的相似性或相關(guān)性,并且每個(gè)單元格各自計(jì)算的特征會聚合為一體。因此這兩部分具有很相似的網(wǎng)絡(luò)結(jié)構(gòu)。?
首先介紹指示特征,它捕捉一個(gè)單元格自身描述與目標(biāo)實(shí)體的對應(yīng)。給定字面描述,我們將英文的指示向量與實(shí)體向量進(jìn)行拼接,并送入全連接層,生成單元格在自身指示級別的隱含特征。收集所有需要被鏈接的單元格的指示特征,并對其求平均,即可得到整張表格上的總體指示特征。具體公式如下:
(3-3)
其中以及為模型參數(shù),為非線性激活函數(shù),實(shí)驗(yàn)中使用函數(shù)。?
上下文特征的獲取與指示特征類似。區(qū)別于指示特征的信息僅來自目標(biāo)單元格,上下文特征還將考慮此單元格周圍的有用信息。而在表格之中,位于同一行或同一列的其余單元格則具有直接的關(guān)聯(lián),因此成為上下文特征的信息來源。我們定義一個(gè)單元格的上下文向量為這些相關(guān)單元格指示向量的平均:
(3-4)
同樣經(jīng)過雙語翻譯層的轉(zhuǎn)換,英文空間中每個(gè)單元格的上下文向量將用于生成整個(gè) 表格的總體上下文特征,記做。具體計(jì)算過程類似公式3–3,只需要把所有指示向量改為上下文向量作為輸入即可。通過觀察表格中的每個(gè)<字面描述,候選實(shí)體>對,并進(jìn)行指示特征和上下文特征的學(xué)習(xí),模型可以從兩張表中捕捉大體上的語義相關(guān)程度。
3.4.4 一致性特征?
前面敘述的兩類特征都是對互聯(lián)網(wǎng)表格與鏈接表格之間的契合度進(jìn)行編碼,另一方面,鏈接表格內(nèi)部,不同實(shí)體之間的關(guān)系同樣具有價(jià)值。之所以有這樣的理解,是因?yàn)楸砀裰型涣?#xff08;有時(shí)同一行)的實(shí)體大多都屬于同一種類型,也就是說,往往擁有更加相似的向量表達(dá)。例如概述部分的圖3–1,表格中從左到右三列,對應(yīng)的鏈接實(shí)體分別屬于電影流派、國家、電影。我們提出的第三種特征,正是用來描述同一列候選實(shí)體之 間的契合度。
關(guān)于同一類型的實(shí)體在表格中是按哪種方向進(jìn)行排列,這涉及到另一個(gè)研究課題名為“表格類型分類”[112,113],主要用于區(qū)分表格的多種表現(xiàn)形式。本章中默認(rèn)表格的形式為“垂直關(guān)系型”[113],即和圖3–1一樣,相同類型實(shí)體按列方向排布。考慮到確定表格類型之后,大多數(shù)互聯(lián)網(wǎng)表格都可以實(shí)現(xiàn)簡單的格式轉(zhuǎn)換,因此這個(gè)課題不在我們的討論范圍。?
一致性特征的網(wǎng)絡(luò)結(jié)構(gòu)見圖3–2的最右側(cè)部分,為了衡量一列實(shí)體向量是否接近,我們對這些向量進(jìn)行逐位的方差計(jì)算,方差越小,表明這些實(shí)體在對應(yīng)位置的隱含語義上差別越小,反之亦然。同樣對每一列的方差向量進(jìn)行求平均的操作,我們便得到整個(gè)候選實(shí)體表格上的一致性特征:
(3-5)
其中函數(shù)以向量集合作為輸入,返回同樣維度的逐位方差向量。一致性特征用于描述候選實(shí)體互相之間是否有良好的自我組織性,由于和字面描述表格無關(guān)聯(lián),該特征可以看做對指示特征與上下文特征的補(bǔ)充。
3.4.5 訓(xùn)練及測試?
我們首先定義輸入表格與候選鏈接表格之間的整體相關(guān)性分?jǐn)?shù)。前面提及的指示、上下文、一致性特征將被拼接,并送至一個(gè)兩層的全連接網(wǎng)絡(luò)得到總體特征,第二層的輸出維度為1,即表示最終的表格相關(guān)度:?
(3-6)
其中,以及均為模型參數(shù)。?
訓(xùn)練集中的每一個(gè)互聯(lián)網(wǎng)表格,都對應(yīng)唯一一張正確的鏈接表格作為正樣本。為了進(jìn)行訓(xùn)練,我們需要準(zhǔn)備若干張鏈接表格作為負(fù)樣本。通過對正樣本表格中的實(shí)體進(jìn)行不同程度的篡改,我們可以自動生成一系列負(fù)樣本表格,具體步驟如下:先隨機(jī)指定要被篡改的單元格數(shù)量,再隨機(jī)確定這些單元格在表格中的位置,最后將這些單元格的鏈接實(shí)體替換為對應(yīng)候選集中的一個(gè)隨機(jī)錯誤實(shí)體。這樣可以使得篡改后的錯誤實(shí)體不至于太容易被發(fā)現(xiàn)。?
訓(xùn)練過程中可能使用的更新方式有兩種:基于最大間隔損失( Max Margin Loss,即Hinge Loss),或者基于成對排序損失( Pairwise Ranking Loss )。對于前者,模型將最大化正樣本表格與負(fù)樣本表格間的分?jǐn)?shù)差異。對于后者,單個(gè)正樣本和多個(gè)負(fù)樣本表格兩兩之間都會進(jìn)行比較,具有更多正確鏈接實(shí)體的表格,要盡可能比另一張表格獲得更高的相關(guān)度分值。本章提出的模型采用了 RankNet 算法[114]計(jì)算成對排序的損失函數(shù),并使用 Adam 算法[115]進(jìn)行梯度下降。?
測試過程涉及到更多的細(xì)節(jié)。理想狀態(tài)下,對于互聯(lián)網(wǎng)表格,我們需要枚舉每一 張鏈接表格,才能得到全局最優(yōu)解。然而,候選表格集的數(shù)量與單元格的數(shù)量呈指數(shù)相關(guān),同時(shí)每一個(gè)單元格又能對應(yīng)大量候選實(shí)體,因此暴力枚舉顯然是不現(xiàn)實(shí)的。
為此,我們使用局部搜索下降( Local-Search Descent )算法來逼近最優(yōu)的鏈接表格。 如算法3–1所示,為鏈接表格的迭代更新起點(diǎn),每個(gè)單元格填充由生成器產(chǎn)生的候選集中最可能的實(shí)體,S 為已學(xué)習(xí)的評分函數(shù)。預(yù)測步驟將以迭代形式進(jìn)行。迭代的每一輪中,所有需要鏈接的單元格按照亂序進(jìn)行一一訪問 (第6行),對每一個(gè)被訪 問的單元格,預(yù)測算法固定其余單元格的鏈接結(jié)果不變,從該單元格的候選實(shí)體中,選擇達(dá)到局部最優(yōu)相關(guān)性分值的實(shí)體,并更新輸出表格的對應(yīng)位置(第12行)。迭代過程將持續(xù)進(jìn)行,直到某一輪結(jié)束之后,輸出表格的相關(guān)性分?jǐn)?shù)無法進(jìn)一步提高。該算法可以類比為離散環(huán)境下的隨機(jī)梯度下降,每個(gè)單元格的候選實(shí)體視為變量,輸出表格的分值沿它們的離散梯度不斷上升,打亂單元格的訪問順序則提供了隨機(jī)擾動,防止預(yù)測過程陷入局部最優(yōu)點(diǎn)。
3.4.6 模型實(shí)現(xiàn)細(xì)節(jié)?
模型的主要實(shí)現(xiàn)細(xì)節(jié)包括了候選生成過程,雙語翻譯層的預(yù)訓(xùn)練,以及調(diào)參細(xì)節(jié),下面將分別對這幾個(gè)部分進(jìn)行介紹。?
候選生成:我們使用百度翻譯,谷歌翻譯以及騰訊翻譯的 API 用于候選生成。獲取翻譯結(jié)果之后,我們將英文字面描述與維基百科中的每一個(gè)實(shí)體進(jìn)行比較,計(jì)算粗略的鏈接置信度。若某實(shí)體名稱與字面描述完全匹配,或存在字面完全匹配的錨文本指向該實(shí)體,則將其置信度設(shè)為1。對于非完全匹配的情況,我們?nèi)サ糇置婷枋龊湾^文本中的所有停用詞,并計(jì)算 Jaccard 相似度,作為字面描述與對應(yīng)實(shí)體的鏈接置信度。綜合各種可能的英文翻譯,根據(jù)鏈接置信度對所有實(shí)體進(jìn)行排序,排名前的實(shí)體將被保留,作為原字面描述的候選集。?
雙語翻譯層預(yù)訓(xùn)練:我們利用必應(yīng)翻譯的 API 收集了一個(gè)雙語詞典,其中包含 91,346 個(gè)單詞級別的中英文翻譯對,并且每對都關(guān)聯(lián)了一個(gè)0到1范圍的置信度。為了從中選取有價(jià)值的信息,我們保留那些置信度高于 0.5,且中英文詞語均完全匹配某維基百科實(shí)體的翻譯對。經(jīng)過此法,我們總共收集了 3,655 個(gè)翻譯詞對用于轉(zhuǎn)換矩陣的預(yù)訓(xùn)練。?
調(diào)參細(xì)節(jié):?
? 每個(gè)單元格對應(yīng)的候選實(shí)體數(shù)量()的調(diào)參范圍為 {1, 3, 5, 10, 20, 30, 40, 50};?
? 每個(gè)訓(xùn)練表格所生成的負(fù)樣本表格數(shù)量()范圍為{9, 19, 49, 99};?
??模型中,指示、上下文、總體特征對應(yīng)向量的維度()范圍為 {20, 50, 100, 200};?
? 學(xué)習(xí)率范圍為{0.0002, 0.0005, 0.001};?
? 我們在每一個(gè)隱含特征計(jì)算上使用 dropout 層[116],保留概率
范圍為 {0.5, 0.6, 0.7, 0.8, 0.9}。
3.5 實(shí)驗(yàn)?
本節(jié)中,我們首先介紹用于實(shí)驗(yàn)的跨語言表格鏈接數(shù)據(jù)集,以及已有的基線方法, 這些方法主要是由單一語言上的實(shí)體鏈接方法轉(zhuǎn)換而來。我們在跨語言以及單一語言場景下進(jìn)行了端到端測試,并且通過橫向?qū)Ρ葘?shí)驗(yàn)分析方法中不同模塊的重要性。
3.5.1 實(shí)驗(yàn)設(shè)置?
詞向量、實(shí)體向量學(xué)習(xí):我們使用2017年2月版本的中文與英文維基百科語料庫,用于學(xué)習(xí)模型中的詞向量與實(shí)體向量。語料庫中包含 5,346,897 個(gè)英文實(shí)體以及 919,696 個(gè)中文實(shí)體。為了學(xué)習(xí)每個(gè)實(shí)體向量,我們將維基百科中的錨文本替代為一個(gè)特殊詞語,與背后的實(shí)體一一對應(yīng)。例如英文句子“” 中, 錨文本 “ Rockets ” 對應(yīng)的實(shí)體為“ Houston Rockets ”,因此我們使用與之對應(yīng)的特殊詞語 “ [[Houston_Rockets]] ”替代錨文本。這樣處理的好處在于,實(shí)體和普通詞語之間無差別, 英文的詞匯和實(shí)體用同一連續(xù)語義空間進(jìn)行表達(dá),這也使得模型經(jīng)過翻譯層后,更容易捕捉字面描述與實(shí)體間的相關(guān)性。預(yù)訓(xùn)練過程采用 Word2Vec [58]分別學(xué)習(xí)中文和英文語料庫上的詞向量,特殊詞語向量即為對應(yīng)實(shí)體向量。預(yù)訓(xùn)練的詞向量維度設(shè)為100。?
表格鏈接數(shù)據(jù)集: 用于實(shí)驗(yàn)的跨語言表格數(shù)據(jù)集包含 150 個(gè)中文字面描述的互聯(lián)網(wǎng)表格,以及對應(yīng)的鏈接表格,標(biāo)注的實(shí)體來自于英文維基百科。大部分表格來自 Wu 等人的研究[99],其公布的數(shù)據(jù)集包含 123 張中文表格,以及映射到中文維基百科上的實(shí)體。我們在互聯(lián)網(wǎng)中收集了另外 40 張大小相似的中文表格,再利用維基百科的跨語言鏈接以及人工標(biāo)注,生成所有的英文鏈接表格。大約 81% 的單元格可以找到對應(yīng)的英文實(shí)體。我們過濾掉表格過小,或可被鏈接的單元格過少的表格。最終數(shù)據(jù)集包含150 張表格,共有 3,818 個(gè)單元格,其中 2,883 個(gè)單元格標(biāo)注了鏈接實(shí)體,平均每張表格包含 19.22 個(gè)鏈接實(shí)體。我們將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集,比例為 80:20: 50。
3.5.2 基線模型?
由于之前并沒有直接針對于跨語言場景的表格鏈接工作,因此我們從兩個(gè)角度出發(fā),根據(jù)已有工作構(gòu)建用于比較的模型。
第一個(gè)方向是單語言的表格鏈接系統(tǒng),我們主要關(guān)注 Bhagavatula 等人[57] 以及 Wu 等人[99]的工作。這兩個(gè)系統(tǒng)分別在英文表格鏈接與中文表格鏈接上取得了不錯的結(jié)果,分別簡寫為??以及??。為了使這兩個(gè)系統(tǒng)能在跨語言場景中進(jìn)行測試,我 們通過單一翻譯工具將輸入中文表格轉(zhuǎn)換為英文,這樣整個(gè)實(shí)驗(yàn)變成了單語言的場景,兩個(gè)系統(tǒng)可以直接運(yùn)行。?
第二個(gè)方向是跨語言的實(shí)體鏈接系統(tǒng),我們與 Zhang 等人[109] 的工作進(jìn)行比較,簡寫為 TextEL 。該方法對 LDA 主題模型[110] 進(jìn)行改進(jìn),稱為雙語 LDA 模型。其核心在于同一個(gè)隱含主題具有兩個(gè)不同語言上的詞匯概率分布,通過比較字面描述上下文與候選實(shí)體在主題概率分布上的相似度,確定最佳的鏈接結(jié)果。為了將該模型用于表格上的實(shí)體鏈接,我們將表格按行遍歷方向展開成普通文本,并標(biāo)記文本中所有需要被鏈接的短語位置。經(jīng)過此法,TextEL 可以在文本中捕捉更靈活的上下文信息,但有可能丟失列方向上實(shí)體相關(guān)的特性。
3.5.3 實(shí)驗(yàn)結(jié)果?
3.5.3.1 候選實(shí)體生成測試?
本節(jié)中,我們關(guān)注將中文字面描述翻譯為候選實(shí)體的精準(zhǔn)度。根據(jù)3.4.6節(jié)中的介紹,我們使用了三種不同的翻譯工具用來生成候選實(shí)體。我們通過 Hits@n 指標(biāo)來衡量候選生成結(jié)果的好壞,以比較不同翻譯工具帶來的差別。Hits@n 的定義為正確的英文實(shí)體出現(xiàn)在前 n 個(gè)候選實(shí)體中的單元格比例。具體比較結(jié)果如表3–1所示,從中觀察可知,百度翻譯的結(jié)果穩(wěn)定優(yōu)于另外兩者,而當(dāng)所有翻譯工具全部使用時(shí),相比百度翻譯結(jié)果,Hits@5 和 Hits@10 都能穩(wěn)定增長約 4%。這說明了多個(gè)翻譯工具之間互相補(bǔ)充,有助于發(fā)現(xiàn)更多正確的實(shí)體,同時(shí)有效的字面相似度的候選排序避免了過多錯誤的候選實(shí)體被引入。
表3–1 候選生成步驟的Hits@n 測評結(jié)果。?
3.5.3.2 端到端測試?
本節(jié)中,我們將與其它基線模型?, 和??在跨語言場景上進(jìn)行端到端測試。與已有工作的實(shí)驗(yàn)保持一致,我們使用的評價(jià)指標(biāo)為微觀準(zhǔn)確率( Micro Accuracy )和宏觀準(zhǔn)確率( Macro Accuracy )。微觀準(zhǔn)確率統(tǒng)計(jì)所有測試表格中,實(shí)體鏈接正確的單元格比例,而宏觀準(zhǔn)確率定義為每個(gè)表格各自鏈接準(zhǔn)確率的平均值,避免了評價(jià)指標(biāo)傾向于更大的表格。
由于 和 僅通過一種翻譯工具生成輸入表格的英文描述,出于公平考量,我與基線模型的比較實(shí)驗(yàn)均僅使用百度翻譯。與此同時(shí),我們也評估使用所有翻譯工具,并且進(jìn)行預(yù)訓(xùn)練的模型準(zhǔn)確率。基于測試集上微觀準(zhǔn)確率的調(diào)參,我們使用的模型超參數(shù)為 = 30, = 49,?=??= 100,?= 200,?= 0.0002以及??= 0.9。?
表3–2顯示了端到端實(shí)驗(yàn)的比較結(jié)果。首先關(guān)注上面四行僅使用百度翻譯的實(shí)驗(yàn),我們模型的大幅度優(yōu)于其余基線模型,準(zhǔn)確率得到了約 12.1% 的相對提升。在此基礎(chǔ)之上,使用多個(gè)翻譯工具模型將微觀準(zhǔn)確率提升了0.03,再次表明翻譯工具之間的互補(bǔ)性給整個(gè)系統(tǒng)帶來的幫助。雙語翻譯層的預(yù)訓(xùn)練步驟同樣具有明顯效果,進(jìn)一步將微觀準(zhǔn)確率提升了0.023。基于單語言表格鏈接模型的? 與??受困于翻譯過程帶來的局限性:實(shí)體預(yù)測結(jié)果嚴(yán)重依賴唯一的英文翻譯,一旦出現(xiàn)偏差便很難糾正,整個(gè)系統(tǒng)容錯率較低。由于模型的后續(xù)訓(xùn)練切斷了與原始中文描述之間的聯(lián)系,這導(dǎo)致了翻譯步驟無法收到訓(xùn)練數(shù)據(jù)提供的反饋,因此錯誤只能在模型中傳播。作為對比,我們提出的模型利用多種英文翻譯生成大量候選實(shí)體,并將原始中文描述作為輸入學(xué)習(xí)特征表示,盡可能減輕了翻譯過程的信息流失。
表3–2 跨語言表格鏈接的測試結(jié)果,基線模型僅使用百度翻譯工具。?
接下來,我們進(jìn)一步分析候選實(shí)體數(shù)量 將對模型效果產(chǎn)生怎樣的影響。顯而易見的是,一方面隨著 增大,候選實(shí)體中包含正確實(shí)體的概率也隨之增大,意味著模型準(zhǔn)確率的理論上限將會提高,而另一方面, 增大會引入更多干擾實(shí)體,整 個(gè)系統(tǒng)也就更難達(dá)到理論上限。我們在不同的模型上改變 值,進(jìn)行了多組比較實(shí)驗(yàn),微觀準(zhǔn)確率結(jié)果如圖3–3所示,圖中標(biāo)出了微觀準(zhǔn)確率的理論上限。我們的方法在不同大小的候選數(shù)量上均有良好的適應(yīng)性,隨著 增大,一直保持著穩(wěn)定的效果提 升。 的效果比較穩(wěn)定,但帶有微小的準(zhǔn)確率下降。而? 結(jié)果出現(xiàn)了急劇下降,拐點(diǎn)位置的候選數(shù)量甚至沒有超過10。我們認(rèn)為主要原因在于雙語 LDA 模型基于無監(jiān)督學(xué)習(xí)方式,它沒有獲得任何直接的<中文描述,英文實(shí)體>信息用于訓(xùn)練,因此對干擾實(shí)體的數(shù)量非常敏感。
圖3–3 微觀準(zhǔn)確率隨候選實(shí)體數(shù)量 的變化情況。
為了更好地證明模型的有效性,我們對單語言場景的表格鏈接也進(jìn)行了測試。由于跨語言的數(shù)據(jù)集利用中英文維基百科之間的鏈接構(gòu)建,因此只需把標(biāo)注實(shí)體替換為對應(yīng)中文維基實(shí)體即可。相應(yīng)地,我們從模型中移除雙語翻譯層,并保持其余設(shè)置不變。用于比較的系統(tǒng)依然為? 和,兩者均為表格鏈接的代表工作,其中后者為中文表格鏈接任務(wù)的最好結(jié)果。表3–3列出的實(shí)驗(yàn)結(jié)果顯示,我們模型的單語言版本依然優(yōu)于兩個(gè)基線系統(tǒng),這在一定程度上說明了基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練模型的有效性, 可以從表格的行列之中捕捉有意義的語義信息。
表3–3 中文環(huán)境下的表格鏈接準(zhǔn)確率。?
3.5.4 模型分析測試?
本節(jié)中,我們對提出的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了更加詳細(xì)的實(shí)驗(yàn)分析,探索模型中指示、上下文、一致性特征各自的貢獻(xiàn)程度,以及聯(lián)合訓(xùn)練的模型架構(gòu)所帶來的優(yōu)勢。
3.5.4.1 三類特征的作用
為了研究模型涉及到的三種不同特征的貢獻(xiàn)程度,我們使用不同的特征組合,在跨語言場景中進(jìn)行對比測試。比較結(jié)果如表3–4所示,模型中的每一類特征都對最終的準(zhǔn)確率起到積極貢獻(xiàn)。其中,指示特征是最重要的特征,因?yàn)樗峁┝俗置婷枋雠c目標(biāo)實(shí)體之間最為直接的信息。上下文特征的作用也十分明顯,在維基百科中,實(shí)體對應(yīng)的錨文本周圍很可能出現(xiàn)與其同行或同列的其它描述,因此基于 CBOW 或 Skip-Gram 訓(xùn)練的實(shí)體向量包含這些上下文的語義。我們觀察到,如果僅使用一致性特征進(jìn)行訓(xùn)練,準(zhǔn)確率的降低十分明顯,約為 59.6%,這主要是因?yàn)槟P碗y以獲取實(shí)體與字面描述之間, 最主導(dǎo)和直接的語義關(guān)聯(lián)。但這并不影響一致性特征對指示及上下文特征的補(bǔ)充,若去除該特征,模型準(zhǔn)確率將相對下降約 6%,依然是不小的差距。一致性特征旨在從全局角度發(fā)現(xiàn)實(shí)體之間的潛在關(guān)聯(lián),用來表征同一列實(shí)體之間是否具有一致性,例如隸屬于相同的維基百科分類標(biāo)簽。即便模型沒有直接利用每個(gè)實(shí)體的分類標(biāo)簽信息,一致性特征依然可以在向量表示中尋找依據(jù)。?
表3–4 不同特征組合在驗(yàn)證集上的跨語言鏈接準(zhǔn)確率。?
我們用本章開頭的圖3–1舉例討論一致性特征的有效性。第三列中字面描述 “鋼鐵俠”具有很高的歧義,在維基百科中,它可以對應(yīng)超級英雄“ Iron_Man ”,也可以對應(yīng)電影 “ Iron_Man_(2008_?lm) ”。作為對比,“馴龍高手”(“ How_to_Train_Your_Dragon_(?lm) ” )以及“線人”(“ The_Stool_Pigeon_(2010_?lm) ”)相對來說歧義較小。若只使用指示特征和上下文特征,模型預(yù)測的實(shí)體為超級英雄,考慮到鋼鐵俠在更多文本中確實(shí)代表超級英雄,因此這樣的預(yù)測結(jié)果可以理解,但卻是錯誤的。當(dāng)一致性特征引入之后,聯(lián)系其它兩個(gè)歧義較低的實(shí)體,同一列實(shí)體之間強(qiáng)烈的相關(guān)性使得模型傾向于這一列都預(yù)測電影,因此模型能夠?qū)崿F(xiàn)正確的預(yù)測。
3.5.4.2 聯(lián)合模型的作用?
這部分將驗(yàn)證整個(gè)聯(lián)合模型框架的作用。相對于聯(lián)合模型計(jì)算整個(gè)輸入表格與鏈接表格的相關(guān)度,非聯(lián)合模型中,單元格之間完全獨(dú)立,各自計(jì)算字面描述與候選實(shí)體的匹配程度,最后求平均得到整張表格上的相關(guān)度。我們將聯(lián)合模型進(jìn)行退化,由于非聯(lián)合模型僅考慮單個(gè)單元格,我們移除模型中的一致性特征模塊,并無需對不同單元格的特征輸出求平均。作為對比實(shí)驗(yàn),我們同樣從已有的聯(lián)合模型中移除一致性特征,并嘗試分別使用 RankNet 模型或最大間隔損失( Max Margin )進(jìn)行訓(xùn)練。
表3–5列出了這一部分實(shí)驗(yàn)在測試集上的微觀準(zhǔn)確率結(jié)果。對比前兩行結(jié)果,我們可以發(fā)現(xiàn),若使用最大間隔損失,非聯(lián)合模型的效果反而優(yōu)于聯(lián)合模型。主要原因有以下兩點(diǎn):1) 非聯(lián)合模型中,每一個(gè)單元格的多個(gè)負(fù)樣本實(shí)體都能在訓(xùn)練過程中被利用, 而對于聯(lián)合模型,由于負(fù)樣本表格的生成依靠隨機(jī)采樣,并不是所有的負(fù)樣本實(shí)體都會被使用;2)最大間隔損失側(cè)重于正樣本表格與不同負(fù)樣本表格間的分值差距,而對于不同錯誤程度的負(fù)樣本表格之間,它們的偏序關(guān)系并沒有被有效利用。因此,相比于最大間隔損失,基于成對計(jì)算損失的 RankNet 更加適合于聯(lián)合模型。此外,在算法運(yùn)行速度方面,非聯(lián)合模型無需迭代預(yù)測步驟,因此顯然比聯(lián)合模型更高效。而實(shí)驗(yàn)過程顯示,聯(lián)合模型平均只需要 6 輪迭代即可完成對每個(gè)測試表格的鏈接預(yù)測,是一個(gè)可以被接受的運(yùn)行速度。
表3–5 不同模型訓(xùn)練方式在測試集上的跨語言鏈接準(zhǔn)確率。?
3.6 本章小結(jié)?
據(jù)我們所知,本章的工作是首次提出了在跨語言場景中進(jìn)行互聯(lián)網(wǎng)表格的實(shí)體鏈接問題。為了使問題盡可能通用,本文研究在不利用任何非英文知識庫作為過渡的情況下, 完成非英文表格到英文知識庫(維基百科)的鏈接。為此,本文提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)和跨語言詞向量的鏈接模型,并利用模型學(xué)習(xí)三種不同粒度的鏈接特征,分別為單元格自身與目標(biāo)實(shí)體的指示特征,單元格所在行列與目標(biāo)實(shí)體的上下文特征,以及同一列目標(biāo)實(shí)體之間的一致性特征。同時(shí)模型遵循聯(lián)合訓(xùn)練框架,定義整張表格級別的鏈接匹配程度作為目標(biāo)函數(shù),并使用迭代更新方式完成所有單元格的鏈接。本文提出的模型在跨語言表格鏈接任務(wù)中取得了 63% 的準(zhǔn)確率,考慮到此任務(wù)比單語言鏈接更具有挑戰(zhàn) 性,本文對后續(xù)的研究而言是一個(gè)良好的開端。在不同設(shè)定上的多組對比實(shí)驗(yàn)顯示,三種粒度的特征對模型均起到明顯效果,同時(shí)聯(lián)合訓(xùn)練框架也具有實(shí)質(zhì)性的幫助。?
后續(xù)的研究主要包括對表格中的單元格判斷是否需要被鏈接,本文的任務(wù)定義移除了這個(gè)問題帶來的影響,但顯然,不可鏈接的單元格在互聯(lián)網(wǎng)表格中也會普遍存在,因此該研究具有其實(shí)際意義。?
參考文獻(xiàn)
(文中提及的部分參考文獻(xiàn)在01#)
了解更多信息請點(diǎn)擊知識工場網(wǎng)站主頁:http://kw.fudan.edu.cn/
合作意向、反饋建議請聯(lián)系:
info.knowledgeworks@gmail.com
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的自然语言理解 02#的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 使用预训练深度模型和迁移学
- 下一篇: 论文浅尝 - ACL2022 | 面向推