最新知识图谱论文清单,就算看不懂也会忍不住收藏
精選 6 篇來(lái)自 EMNLP 2018、COLING 2018、ISWC 2018 和 IJCAI 2018 的知識(shí)圖譜相關(guān)工作,帶你快速了解知識(shí)圖譜領(lǐng)域最新研究進(jìn)展。
本期內(nèi)容選編自微信公眾號(hào)「開(kāi)放知識(shí)圖譜」。
■ 論文解讀 |?張良,東南大學(xué)博士,研究方向?yàn)橹R(shí)圖譜、自然語(yǔ)言處理
本文主要關(guān)注 KG embedding 中三元組成立的時(shí)間有效性問(wèn)題,比如三元組(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效時(shí)間段是 2003 年到 2009 年,這個(gè)使三元組有效成立的時(shí)間段被稱為 temporal scopes。
這些 temporal scopes 隨著時(shí)間的推移對(duì)許多數(shù)據(jù)集會(huì)產(chǎn)生影響(比如 YAGO,Wikidata),現(xiàn)有的 KG embedding 方法很少考慮到時(shí)間這一維度,因?yàn)樗鼈兗僭O(shè)所有的三元組總是永遠(yuǎn)正確的,可是現(xiàn)實(shí)中很多情況下不是這樣。
本文提出了 HyTE 模型,HyTE 不僅能夠利用時(shí)間導(dǎo)向進(jìn)行知識(shí)圖譜圖推理,還能夠?yàn)槟切┤笔r(shí)間注釋的事實(shí)預(yù)測(cè) temporal scopes。實(shí)驗(yàn)結(jié)果表明該模型與傳統(tǒng)模型或者同類模型相比都有著突出的表現(xiàn)。
研究背景
知識(shí)圖譜嵌入(Knowledge graph embedding)方法是將知識(shí)圖譜中的實(shí)體和關(guān)系表示成連續(xù)稠密低維實(shí)值向量,從而可以通過(guò)向量來(lái)高效計(jì)算實(shí)體與關(guān)系的語(yǔ)義聯(lián)系。從 2013 年 TransE 的提出,到后來(lái)一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是對(duì) TransE 模型的擴(kuò)展。
這些模型都沒(méi)有考慮時(shí)間維度,一直將知識(shí)圖譜當(dāng)做靜態(tài)來(lái)處理,這顯然不符合事實(shí)。數(shù)據(jù)的暴漲與更新表明知識(shí)圖譜本來(lái)就是動(dòng)態(tài)的,所以后來(lái)有工作將時(shí)間信息考慮進(jìn)去,但只是將時(shí)間序列作為 KG embedding 過(guò)程中的約束,沒(méi)有明顯地體現(xiàn)時(shí)間的特性。為此,本文提出的 HyTE 模型直接在學(xué)習(xí)的過(guò)程中結(jié)合時(shí)間信息。
論文模型
本文認(rèn)為不僅是知識(shí)圖譜中的實(shí)體可能會(huì)隨著時(shí)間改變,實(shí)體間的關(guān)系也是如此。由于 TransE 模型不能處理多關(guān)系的情形,而 TransH 模型能夠使實(shí)體在不同的關(guān)系下?lián)碛胁煌谋硎?#xff0c;所以本文受 TransH 的啟發(fā)提出了一個(gè)基于超平面的時(shí)間感知知識(shí)圖譜嵌入模型。?
考慮一個(gè)四元組?(h,r,t,[τs,?τe]),這里的?τs?和 τe?分別定義了三元組成立時(shí)間段的起始與截止。TransE 模型將實(shí)體和關(guān)系考慮到相同的語(yǔ)義空間,但是在不同的時(shí)間段,實(shí)體與關(guān)系組成的(h,r)可能會(huì)對(duì)應(yīng)到不同的尾實(shí)體 t。
所以在本文的模型中,希望實(shí)體能夠隨不同的時(shí)間點(diǎn)有著不同的表示。為了達(dá)到這一目的,文中將時(shí)間表示成超平面(hyperplane),模型示意圖如下:
eh,et,er,分別表示三元組中頭實(shí)體,尾實(shí)體以及關(guān)系所對(duì)應(yīng)的向量表示,τ1?和?τ2?分別表示此三元組有效成立時(shí)間段的起始時(shí)間與截止時(shí)間。eh(τ1),?er(τ1) 以及表示各向量在時(shí)間超平面 τ1?上的投影,最終,模型通過(guò)最小化翻譯距離來(lái)完成結(jié)合時(shí)間的實(shí)體與關(guān)系 embedding 學(xué)習(xí)過(guò)程。
實(shí)驗(yàn)
當(dāng)實(shí)驗(yàn)數(shù)據(jù)包含兩部分:YAGO11k 和 Wikidata12k,這兩個(gè)數(shù)據(jù)集抽取了 YAGO 以及 Wikidata 中帶有時(shí)間注釋(time annotations)的部分。通過(guò) Link prediction 以及 Temporal scoping 兩個(gè)實(shí)驗(yàn)任務(wù)與其它模型比較,實(shí)驗(yàn)結(jié)果如下:
實(shí)體預(yù)測(cè)結(jié)果
關(guān)系預(yù)測(cè)結(jié)果
Temporal Scoping預(yù)測(cè)結(jié)果(越小越好)
實(shí)驗(yàn)結(jié)果表明,HyTE 模型在相關(guān)任務(wù)上與其它模型相比有較為顯著的提升。
EMNLP 2018■ 論文解讀 |?王梁,浙江大學(xué)碩士,研究方向?yàn)橹R(shí)圖譜、自然語(yǔ)言處理
研究背景
機(jī)器閱讀任務(wù)按照答案類型的不同,可以大致分為:
分類問(wèn)題:從所有候選實(shí)體選擇一個(gè);
Answer Span:答案是輸入文本的一個(gè)片段;
生成式問(wèn)題:模型生成一句話回答問(wèn)題。
不同的數(shù)據(jù)集文檔的差異也較大。如 SQuAD,CNN/DM 數(shù)據(jù)集來(lái)源于百科,新聞等文本,問(wèn)題類型多為事實(shí)型,因而回答問(wèn)題不需要綜合全文多處進(jìn)行綜合推理,只需要包含答案的句子即可。而本文實(shí)驗(yàn)所用的數(shù)據(jù)集如 NarrativeQA 則來(lái)源于小說(shuō)等,回答問(wèn)題需要綜合全文多處不相連片段進(jìn)行推理,因此難度更大。?
本文提出在 NarrativeQA 等需要多跳推理的文本進(jìn)行生成式問(wèn)題回答的模型。人工抽樣數(shù)據(jù)集樣本分析發(fā)現(xiàn),許多樣本答案的推理單憑文本包含的信息是無(wú)法完成推理并回答的,需要引入外部知識(shí)庫(kù)中的常識(shí)信息。本文提出在常規(guī)的機(jī)器閱讀模型中引入 ConceptNet 中的常識(shí)信息。
Baseline模型
按照機(jī)器閱讀模型的一般性結(jié)構(gòu),Baseline 模型可以分為 4 層:
1. Embedding Layer:問(wèn)題和文檔里的每個(gè)詞用預(yù)訓(xùn)練的詞向量和 ELMo 向量表示;
2. Reasoning Layer:重復(fù)執(zhí)行 K 次推理單元,推理單元的內(nèi)部結(jié)構(gòu)是 BiDAF 模型的 attention 層;
3. Model Layer:最后再對(duì)文檔的表示做 self-attention 和 Bi-LSTM;
4. Answer Layer:pointer-generator decoder,即 RNN 的每一步同時(shí)對(duì)詞表和輸入計(jì)算輸出概率,每個(gè)詞在當(dāng)前位置被輸出的概率為其在詞表中被選中的概率和其在輸入中被 copy 的概率之和。
改進(jìn)模型:引入外部常識(shí)
常識(shí)挑選?
對(duì)每一個(gè)樣本,需要中外部 KG 中選擇與之相關(guān)的多跳路徑,做法如下:?
1. 在 KG 中找出多跳路徑,其中包含的實(shí)體出現(xiàn)在樣本的問(wèn)題或文檔中;
2. 對(duì)這些路徑中的實(shí)體節(jié)點(diǎn)按照出現(xiàn)次數(shù)或 PMI 打分;
3. 類似 beam search,從所有路徑生成的輸出中挑選出得分最高的一些路徑,這些路徑是對(duì)該樣本可能有幫助的外部常識(shí)信息。
模型引入常識(shí)
引入外部常識(shí)通過(guò)修改 Reasoning Layer 中的基本單元。具體做法是,每條路徑的 embedding 表示為其每個(gè)節(jié)點(diǎn)的文本 embedding 的簡(jiǎn)單拼接,修改后的 Reasoning Cell 在經(jīng)過(guò) BiDAF 的 attention 結(jié)構(gòu)后,再對(duì)該樣本的所有外部常識(shí)三元組路徑做 attention 計(jì)算,該 attention 計(jì)算再次更改文檔和問(wèn)題中每個(gè)詞的表示。?
實(shí)驗(yàn)結(jié)果
對(duì)比 Baseline 模型和引入外部常識(shí)的模型可見(jiàn),引入外部常識(shí)能是模型在 BLEU 和 Rouge 等指標(biāo)上取得不錯(cuò)的提升。
對(duì)模型做 ablation test,可以發(fā)現(xiàn)推理層的推理次數(shù)如果為 1,模型效果下降很多,這表明模型確實(shí)在利用多跳的路徑信息。另外,ELMo embedding,以及經(jīng)過(guò) Reasoning 層后的 self-attention,都對(duì)模型的效果提升較大。
ISWC 2018■ 論文解讀 |?丁基偉,南京大學(xué)博士生,研究方向?yàn)橹R(shí)圖譜、知識(shí)庫(kù)問(wèn)答
研究背景
面向知識(shí)庫(kù)的語(yǔ)義問(wèn)答是指將用戶的自然語(yǔ)言問(wèn)句轉(zhuǎn)換為可以在知識(shí)庫(kù)上執(zhí)行的形式化查詢并獲取答案,其面臨的挑戰(zhàn)主要有以下幾點(diǎn):1)實(shí)體的識(shí)別和鏈接;2)關(guān)系的識(shí)別和鏈接;3)查詢意圖識(shí)別;4)形式化查詢生成。
其中實(shí)體鏈接和關(guān)系鏈接是指將自然語(yǔ)言問(wèn)句中的詞匯(或短語(yǔ))鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體或關(guān)系。大多數(shù)現(xiàn)有問(wèn)答系統(tǒng)依次或并行執(zhí)行實(shí)體鏈接和關(guān)系鏈接步驟,而本工作將這兩個(gè)步驟合并,提出了基于廣義旅行商問(wèn)題和基于連接密度相關(guān)特征進(jìn)行機(jī)器學(xué)習(xí)的兩種聯(lián)合鏈接方法。
下表展示了不同種類的鏈接方法的優(yōu)缺點(diǎn):
框架及方法
上圖展示了本文提出的聯(lián)合的實(shí)體關(guān)系鏈接框架(EARL,Entity and Relation Linking),主要包括如下兩個(gè)步驟:
預(yù)處理步驟(左側(cè)紅框),包括如下三個(gè)子過(guò)程:?
1. 利用 SENNA 系統(tǒng)從輸入的自然語(yǔ)言問(wèn)句中抽取出若干關(guān)鍵詞短語(yǔ)。對(duì)于圖中輸入的問(wèn)句,這里抽取到的關(guān)鍵詞短語(yǔ)是<founder,Tesla, SpaceX, born>。?
2. 對(duì)于每個(gè)關(guān)鍵詞,使用基于字符嵌入(character embedding)的 LSTM 網(wǎng)絡(luò)判斷它是知識(shí)庫(kù)中的關(guān)系還是實(shí)體。對(duì)于上個(gè)過(guò)程中的關(guān)鍵詞短語(yǔ),這一步將“founder”和“born”識(shí)別為關(guān)系, 將“Tesla”和“SpaceX”識(shí)別為實(shí)體。?
3. 為每個(gè)關(guān)鍵詞短語(yǔ)生成候選實(shí)體或關(guān)系列表。對(duì)于問(wèn)句中的實(shí)體名,利用預(yù)先收集的 URI-label 詞典,以及 Wikidata 中的實(shí)體別名、sameas 關(guān)系等進(jìn)行生成。對(duì)于關(guān)系詞,利用 Oxford Dictionary API 和 fastText 擴(kuò)展知識(shí)庫(kù)上的關(guān)系名后進(jìn)行關(guān)聯(lián)。
聯(lián)合消歧步驟(右側(cè)黃框),主要包括本文提出的兩個(gè)核心方法:?
1. 基于廣義旅行商問(wèn)題(GTSP)的消歧方法。如下圖所示,該方法將每個(gè)關(guān)鍵詞的候選 URI 放入同一個(gè)簇。邊的權(quán)重被設(shè)置為兩個(gè) URI 在知識(shí)庫(kù)上的距離(hop 數(shù)),而聯(lián)合消歧過(guò)程被建模為在該圖上尋找一條遍歷每個(gè)簇的邊權(quán)總和最小的路(頭尾結(jié)點(diǎn)可以不同)。
對(duì)于 GTSP 問(wèn)題的求解,本工作先將其轉(zhuǎn)換為 TSP 問(wèn)題,后使用 Lin-Kernighan-Helsgaun 近似算法進(jìn)行求解。圖中加粗的邊表示該示例的求解結(jié)果。
2. 基于連接密度相關(guān)特征進(jìn)行機(jī)器學(xué)習(xí)的消歧方法。對(duì)于每個(gè)關(guān)鍵詞的所有候選 URI,分別抽取特征 Ri(候選列表中的排序位置),C(2 步以內(nèi)可達(dá)的其他關(guān)鍵詞的候選 URI 的數(shù)量),H(到其他關(guān)鍵詞的候選 URI 的平均步數(shù))三個(gè)特征,采用 XGBoost 分類器篩選最合適的候選。
下表總結(jié)了上述兩個(gè)消歧方法的差異:
3. 額外的,本文提出了一種自適應(yīng)實(shí)體/屬性預(yù)測(cè)方法。如果消歧后某個(gè)實(shí)體/關(guān)系和它最終鏈接到的 URI 的置信度低于閾值,則可能預(yù)處理步驟的第二個(gè)子過(guò)程(實(shí)體/關(guān)系預(yù)測(cè))有錯(cuò)誤。在這種情況下,該工作會(huì)更改該關(guān)鍵詞的實(shí)體/關(guān)系標(biāo)簽,重新執(zhí)行候選生成和消歧步驟,從而獲得整體精度的提升。
實(shí)驗(yàn)
本文選用了 LC-QuAD 問(wèn)答數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),包含 5000 個(gè)問(wèn)句。其標(biāo)準(zhǔn)答案(實(shí)體/關(guān)系對(duì)應(yīng)的 URI)采用人工標(biāo)注的方法進(jìn)行生成。除此以外本文還選用了現(xiàn)有的 QALD-7 問(wèn)句集進(jìn)行測(cè)試。?
實(shí)驗(yàn)結(jié)果如下表所示,和對(duì)比方法相比,EARL 在 MRR 值上有較大提升。?
實(shí)體鏈接結(jié)果:
關(guān)系鏈接結(jié)果:
■ 解讀 |?譚亦鳴,東南大學(xué)博士,研究方向?yàn)橹R(shí)圖譜問(wèn)答、自然語(yǔ)言處理
論文動(dòng)機(jī)
近年來(lái),隨著多語(yǔ)言知識(shí)圖譜嵌入(Multilingual KG Embedding)的研究,實(shí)體的潛在語(yǔ)義表示以及跨語(yǔ)言知識(shí)推理等任務(wù)均取得一定成效,因此也推動(dòng)了許多知識(shí)驅(qū)動(dòng)的跨語(yǔ)言工作。然而,受限于各語(yǔ)言知識(shí)圖譜之間較低的實(shí)體對(duì)齊(Entity Alignment)程度,跨語(yǔ)言推理的準(zhǔn)確性往往不夠令人滿意。?
考慮到多語(yǔ)言知識(shí)圖譜中具有對(duì)實(shí)體的文字性描述,文章提出一種基于嵌入(Embedding)的策略:通過(guò)利用圖譜中實(shí)體的文字描述,對(duì)僅包含弱對(duì)齊(KG 中的 inter-language links,ILLs)的多語(yǔ)圖譜做半監(jiān)督的跨語(yǔ)言知識(shí)推理。?
為了有效利用圖譜知識(shí)以及實(shí)體的文字描述,文章提出通過(guò)協(xié)同訓(xùn)練(Co-train)兩個(gè)模塊從而構(gòu)建模型 KDCoE:多語(yǔ)言知識(shí)嵌入模塊和多語(yǔ)言實(shí)體描述嵌入模塊。
論文貢獻(xiàn)
文章貢獻(xiàn)如下:
1. 提出了一種半監(jiān)督學(xué)習(xí)方法 KDCoE,協(xié)同訓(xùn)練了多語(yǔ)知識(shí)圖譜嵌入和多語(yǔ)實(shí)體描述嵌入用于跨語(yǔ)言知識(shí)對(duì)齊;
2. 證明 KDCoE 在 Zero-shot 實(shí)體對(duì)齊以及跨語(yǔ)言知識(shí)圖譜補(bǔ)全(Cross-lingual KG Completion)任務(wù)上的有效性;
論文方法
多語(yǔ)言知識(shí)圖譜嵌入(KGEM)
由知識(shí)模型(Knowledge Model)和對(duì)齊模型(Alignment Model)兩個(gè)部分構(gòu)成,分別從不同角度學(xué)習(xí)結(jié)構(gòu)化知識(shí)。?
知識(shí)模型:用于保留各語(yǔ)言知識(shí)嵌入空間中的實(shí)體和關(guān)系。文章采用了傳統(tǒng)的 TransE 方法構(gòu)建知識(shí)模型,并認(rèn)為這種方法有利于在跨語(yǔ)言任務(wù)重中保持實(shí)體表示的統(tǒng)一性,且不會(huì)受到不同關(guān)系上下文帶來(lái)的影響。其對(duì)應(yīng)的目標(biāo)損失函數(shù)如下:
其中,L 表示某種語(yǔ)言,(Li,Lj) 表示一組語(yǔ)言對(duì),GL 表示語(yǔ)言 L 對(duì)應(yīng)的知識(shí)圖譜,反映的是圖譜中三元組 (h,r,t) 之間的相異度,r 是一個(gè) positive margin,[x]+ 則表示取 x 的正值部分,表示一組伯努利負(fù)采樣三元組,用于替換圖譜三元組中的 h 和 t。
對(duì)齊模型:用于在不同語(yǔ)言的嵌入空間中獲取跨語(yǔ)言關(guān)聯(lián)。為了將不同語(yǔ)言間的知識(shí)關(guān)聯(lián)起來(lái),文章參照 MTransE 中的線性轉(zhuǎn)換策略,其目標(biāo)函數(shù)如下:
其中 (e, e') 是一組已知的對(duì)齊實(shí)體,當(dāng)知識(shí)嵌入向量的維度為?k1 時(shí),Mij 是一個(gè)的線性轉(zhuǎn)換矩陣,用于將 Li 語(yǔ)言的實(shí)體向量轉(zhuǎn)換為 Lj 語(yǔ)言。這里與 MTransE 方法不同的是,文章僅計(jì)算了跨語(yǔ)言實(shí)體嵌入而非三元組整體嵌入。
KGEM 的目標(biāo)函數(shù):
其中,α 是一個(gè)正超參數(shù)。
多語(yǔ)言實(shí)體描述嵌入(DEM)
DEM 過(guò)程包含兩個(gè)部分:編碼和跨語(yǔ)言嵌入。
編碼:文章使用 Attentive Gated Recurrent Unit encoder, AGRU 對(duì)多語(yǔ)言實(shí)體描述進(jìn)行編碼,可以理解為帶有 self-attention 的 GRU 循環(huán)網(wǎng)絡(luò)編碼器。
文章希望利用 self-attention 機(jī)制使得編碼器能夠凸顯實(shí)體描述句子中的關(guān)鍵信息,AGRU 中的 self-attention 可以定義為以下公式:
其中,ut 是由 GRU 中 st 產(chǎn)生的隱藏表示,attention 權(quán)值 at 則是由一個(gè) softmax 函數(shù)計(jì)算得到,反映的是單詞 xt 對(duì)于序列 X 的重要性,而后依據(jù)此權(quán)重與隱藏表示可以得到 self-attention 的輸出 vt,|X|(輸入序列的長(zhǎng)度)用于防止 vt 失去原有的規(guī)模。?
在這個(gè)部分,作者也嘗試了其他的編碼框架,包括單層網(wǎng)絡(luò),CNN,ALSTM 等等,但 AGRU 取得了最好的性能。
跨語(yǔ)言嵌入部分:為了更好的反映出多語(yǔ)言實(shí)體描述的詞級(jí)別語(yǔ)義信息,文章使用跨語(yǔ)言詞嵌入方法用于衡量和找出不同語(yǔ)言間的相似詞匯。大致流程可描述如下:?
首先,使用跨語(yǔ)言平行語(yǔ)料 Europarl V7 以及 Wikipedia 中的單語(yǔ)語(yǔ)料,對(duì) cross-lingualBilbowa [Gouws et al., 2015] word embeddings 進(jìn)行預(yù)訓(xùn)練。而后使用上述 embeddings 將實(shí)體描述文本轉(zhuǎn)換為向量序列,再輸入進(jìn)編碼器中。
DEM 學(xué)習(xí)目標(biāo):文章建立的編碼器由兩個(gè)堆疊的 AGRU 層構(gòu)成,用于建模兩種語(yǔ)言的實(shí)體描述。該編碼器將實(shí)體描述序列作為輸入,而后由第二層輸出生成的 embedding。而后,文章引入了一個(gè) affine 層,將上述各種語(yǔ)言的 embedding 結(jié)果投影到一個(gè)通用空間中,其投影過(guò)程由以下公式描述:
DEM 的目標(biāo)是最大化各個(gè)實(shí)體描述 embedding 與對(duì)應(yīng)的其他語(yǔ)言版本之間的 log 相似度,故可以將目標(biāo)函數(shù)描述如下:
迭代Co-training的KDCoE模型
文章利用 KG 中存在的少量 ILLs 通過(guò)迭代的協(xié)同過(guò)程訓(xùn)練 KGEM 和 DEM 兩個(gè)模塊,過(guò)程大致描述如下:?
每次迭代中,各模塊都進(jìn)行一系列“訓(xùn)練-生成”的過(guò)程:?
1)首先利用已有的 ILLs 對(duì)模型進(jìn)行訓(xùn)練;2)之后利用訓(xùn)練得到的模型從 KG 中預(yù)測(cè)得到以前未出現(xiàn)過(guò)的新 ILLs;3)而后將這些結(jié)果整合到已有 ILLs 中,作為下一輪迭代的訓(xùn)練數(shù)據(jù);4)判斷是否滿足終止條件:本輪迭代中各模塊不再生成新的 ILLs。
其算法細(xì)節(jié)描述如下圖:
實(shí)驗(yàn)
實(shí)驗(yàn)相關(guān)細(xì)節(jié)
實(shí)驗(yàn)數(shù)據(jù)說(shuō)明:文章實(shí)驗(yàn)數(shù)據(jù)來(lái)自 DBPedia 中抽取的子集 WK3160k,由英法德三語(yǔ)構(gòu)成,其中每種語(yǔ)言數(shù)據(jù)中包含了 54k-65k 規(guī)模的實(shí)體。具體統(tǒng)計(jì)信息如下表:
文章分別在跨語(yǔ)言實(shí)體對(duì)齊,Zero-shot 對(duì)齊以及跨語(yǔ)言知識(shí)圖譜補(bǔ)全等三個(gè)任務(wù)上進(jìn)行實(shí)驗(yàn)。
其中,跨語(yǔ)言實(shí)體對(duì)齊選用的基線系統(tǒng)包括:LM,CCA,OT,ITransE 以及 MTransE 的三種策略;Zero-shot 對(duì)齊的基線系統(tǒng)為:Single-layer 網(wǎng)絡(luò),CNN,GRU,AGRU 的兩種策略;知識(shí)圖譜補(bǔ)全的基線系統(tǒng)為 TransE。
實(shí)驗(yàn)結(jié)果?
跨語(yǔ)言實(shí)體對(duì)齊:如下圖所示,文章設(shè)置了三組評(píng)價(jià)指標(biāo),分別為:accuracy Hit@1;proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR。
從結(jié)果上看,KDCoE 模型的性能遠(yuǎn)優(yōu)于其他系統(tǒng),且隨著 Co-train 的迭代次數(shù)增加,系統(tǒng)的性能也都有較為明顯的提升。
Zero-shot 對(duì)齊:Zero-shot 采用的評(píng)價(jià)指標(biāo)與跨語(yǔ)言實(shí)體對(duì)齊相同,下圖反映了 KDCoE 在 Zero-shot 對(duì)齊任務(wù)中的實(shí)驗(yàn)結(jié)果。
從實(shí)驗(yàn)結(jié)果上看,KDCoE 的效果依然是隨著迭代次數(shù)的增加而上升,但從第一次迭代的結(jié)果可以發(fā)現(xiàn),其優(yōu)勢(shì)的來(lái)源基礎(chǔ)是 AGRU。這也反映出 AGRU 在編碼上相對(duì)其他網(wǎng)絡(luò)模型體現(xiàn)出了更優(yōu)性能。?
跨語(yǔ)言知識(shí)補(bǔ)全:在跨語(yǔ)言知識(shí)補(bǔ)全任務(wù)中,文章采用 proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR 等兩個(gè)評(píng)價(jià)指標(biāo)。
根據(jù) KDCoE-mono 的表現(xiàn),可以推斷,該模型成功繼承了 TranE 保持結(jié)構(gòu)化知識(shí)中實(shí)體和關(guān)系的穩(wěn)定性。而 KDCoE-corss 則反映引入跨語(yǔ)言信息確實(shí)對(duì)知識(shí)補(bǔ)全的效果起到了明顯提升。
總結(jié)
本文提出了一種基于 embedding 技術(shù)的跨語(yǔ)言知識(shí)對(duì)齊方法,通過(guò)引入 Co-train 機(jī)制,將 KG 中的關(guān)系上下文與實(shí)體描述信息有效的利用起來(lái),以現(xiàn)有 KG 中的小規(guī)模 ILLs 為基礎(chǔ)建立半監(jiān)督機(jī)制,在跨語(yǔ)言實(shí)體對(duì)齊,知識(shí)補(bǔ)全上都起到了明顯的效果。
■ 論文解讀 |?花云程,東南大學(xué)博士,研究方向?yàn)橹R(shí)圖譜問(wèn)答、自然語(yǔ)言處理
論文動(dòng)機(jī)
在以前的工作中,對(duì)話生成的信息源是文本與對(duì)話記錄。但是這樣一來(lái),如果遇到 OOV 的詞,模型往往難以生成合適的、有信息量的回復(fù),而會(huì)產(chǎn)生一些低質(zhì)的、模棱兩可的回復(fù)。?
為了解決這個(gè)問(wèn)題,有一些利用常識(shí)知識(shí)圖譜生成對(duì)話的模型被陸續(xù)提出。當(dāng)使用常識(shí)性知識(shí)圖譜時(shí),由于具備背景知識(shí),模型更加可能理解用戶的輸入,這樣就能生成更加合適的回復(fù)。但是,這些結(jié)合了文本、對(duì)話記錄、常識(shí)知識(shí)圖譜的方法,往往只使用了單一三元組,而忽略了一個(gè)子圖的整體語(yǔ)義,會(huì)導(dǎo)致得到的信息不夠豐富。?
為了解決這些問(wèn)題,文章提出了一種基于常識(shí)知識(shí)圖譜的對(duì)話模型(commonsense knowledge aware conversational model,CCM)來(lái)理解對(duì)話,并且產(chǎn)生信息豐富且合適的回復(fù)。
本文提出的方法,利用了大規(guī)模的常識(shí)性知識(shí)圖譜。首先是理解用戶請(qǐng)求,找到可能相關(guān)的知識(shí)圖譜子圖;再利用靜態(tài)圖注意力(static graph attention)機(jī)制,結(jié)合子圖來(lái)理解用戶請(qǐng)求;最后使用動(dòng)態(tài)圖注意力(dynamic graph attention)機(jī)制來(lái)讀取子圖,并產(chǎn)生合適的回復(fù)。
通過(guò)這樣的方法,本文提出的模型可以生成合適的、有豐富信息的對(duì)話,提高對(duì)話系統(tǒng)的質(zhì)量。
論文貢獻(xiàn)
本文貢獻(xiàn)如下:
1. 首次嘗試使用大規(guī)模常識(shí)性知識(shí)圖譜來(lái)處理對(duì)話生成問(wèn)題;
2. 對(duì)知識(shí)圖譜子圖,提出了靜態(tài)/動(dòng)態(tài)圖注意力機(jī)制來(lái)吸收常識(shí)知識(shí),利于理解用戶請(qǐng)求與生成對(duì)話。
論文方法
Encoder-Decoder模型?
經(jīng)典的 Encoder-Decoder 模型是基于 Seq2Seq 的。Encoder 模型將用戶輸入(user post)X 用隱狀態(tài) H 來(lái)表示,而 Decoder 模型使用另一個(gè) GRU 來(lái)循環(huán)生成每一個(gè)階段的隱狀態(tài)。
其中 Ct 是上下文向量,通過(guò)注意力機(jī)制按步生成。最終,Decoder 模型根據(jù)概率分布生成了輸出狀態(tài),并產(chǎn)生每一步的輸出 token。
模型框架
如下圖 1 所示為本文提出的 CCM 模型框架。
▲?圖1. CCM模型框架
如圖 1 所示,基于 n 個(gè)詞輸入,會(huì)輸出 n 個(gè)詞作為回復(fù),模型的目的就是預(yù)估這么一個(gè)概率分布:
也就是將圖信息 G 加入到概率分布的計(jì)算中。
在信息讀取時(shí),根據(jù)每個(gè)輸入的詞 x,找到常識(shí)知識(shí)圖譜中對(duì)應(yīng)的子圖(若沒(méi)有對(duì)應(yīng)的子圖,則會(huì)生成一個(gè)特殊的圖 Not_A_Fact),每個(gè)子圖又包含若干三元組。在信息讀取時(shí),詞向量與這個(gè)詞對(duì)應(yīng)的子圖向量拼接,而子圖向量是由采用靜態(tài)圖注意力機(jī)制生成的。
當(dāng)生成回復(fù)時(shí),采用動(dòng)態(tài)圖注意力機(jī)制來(lái)引用圖信息,即讀取每個(gè)字對(duì)應(yīng)的子圖和子圖中的實(shí)體,并且在生成當(dāng)前回復(fù)時(shí),通過(guò)概率計(jì)算應(yīng)該是生成通用詞還是這個(gè)子圖中的相關(guān)實(shí)體。
知識(shí)編譯模塊
如圖 2 所示,為如何利用圖信息編譯 post 的示意圖。
▲?圖2. 知識(shí)編譯模塊
如圖所示,當(dāng)編譯到“rays”時(shí),會(huì)把這個(gè)詞在知識(shí)圖譜中相關(guān)的子圖得到(圖 2 最上的黃色高亮部分),并生成子圖的向量。每一個(gè)子圖都包含了 key entity(即這里的 rays),以及這個(gè)“rays”的鄰居實(shí)體和相連關(guān)系。
對(duì)于詞“of”,由于無(wú)法找到對(duì)應(yīng)的子圖,所以就采用特殊子圖 Not_A_Fact 來(lái)編譯。之后,采用基于靜態(tài)注意力機(jī)制,CCM 會(huì)將子圖映射為向量 gi,然后把詞向量 w(x_t) 和 gi 拼接為 e(xt)=[w(xt); gi],并將這個(gè) e(xt) 替換傳統(tǒng) encoder-decoder 中的 e(xt) 進(jìn)行 GRU 計(jì)算。?
對(duì)于靜態(tài)圖注意力機(jī)制,CCM 是將子圖中所有的三元組都考慮進(jìn)來(lái),而不是只計(jì)算一個(gè)三元組,這也是該模型的一個(gè)創(chuàng)新點(diǎn)。當(dāng)?shù)玫阶訄D時(shí),且這個(gè)子圖由三元組 K 表示, K(gi)={k1,k2,…,k(NG)}。在計(jì)算時(shí),就是將當(dāng)前三元組的頭實(shí)體與尾實(shí)體向量通過(guò)矩陣變換后相加,再經(jīng)過(guò)正切激活函數(shù)后,與經(jīng)過(guò)矩陣變換的關(guān)系進(jìn)行點(diǎn)積,得到一個(gè)值。
而將這個(gè)詞向量與所有三元組進(jìn)行計(jì)算后,再經(jīng)過(guò) softmax,就得到了一個(gè)權(quán)重。把子圖中所有頭實(shí)體、尾實(shí)體按對(duì)相加,再基于權(quán)重計(jì)算加權(quán)和,就得到了圖向量 gi。
知識(shí)生成模塊
如下圖 3 所示,為如何利用圖信息生成回復(fù)的示意圖。
▲?圖3. 知識(shí)生成模塊?
在生成時(shí),不同于靜態(tài)圖注意力機(jī)制,模型會(huì)讀取所有相關(guān)的子圖,而不是當(dāng)前詞對(duì)應(yīng)的子圖,而在讀取時(shí),讀取注意力最大的就是圖中粉色高亮的部分。生成時(shí),會(huì)根據(jù)計(jì)算結(jié)果,來(lái)選擇是生成通用字(generic word)還是子圖中的實(shí)體。?
在進(jìn)行 decoder 時(shí),公式改為,而是指將生成的詞向量,以及這個(gè)詞來(lái)自的三元組向量進(jìn)行拼接(如果生成的是一個(gè)通用詞,那么三元組就是 Not_A_Fact)。
在這里,可以看到 GRU 的輸入多了兩個(gè)向量(來(lái)自于表示圖信息的向量)和(表示三元組信息的向量)。
對(duì)于動(dòng)態(tài)圖注意力機(jī)制,是一種層次型的計(jì)算,即 CCM 先根據(jù) post 相關(guān)的所有知識(shí)圖譜子圖來(lái)計(jì)算一個(gè)向量,再根據(jù)子圖中的三元組再計(jì)算一個(gè)向量。對(duì)于上個(gè)階段的隱狀態(tài)輸出 st,最終的是圖向量 gi 的加權(quán)和。?
然后,對(duì)于每個(gè)子圖中的三元組 kj,CCM 又計(jì)算了一次注意力,最終的是 kj 的加權(quán)和,權(quán)重為對(duì)應(yīng)圖 gi 的注意力權(quán)重與三元組 kj 的注意力權(quán)重之積。?
最終,每一個(gè) step 的輸出,是根據(jù) st 來(lái)選擇一個(gè)通用詞或者子圖中的實(shí)體。
損失函數(shù)
損失函數(shù)為預(yù)期輸出與實(shí)際輸出的交叉熵,除此之外,為了監(jiān)控選擇通用詞還是實(shí)體的概率,又增加了一個(gè)交叉熵。公式如下:
其中 γt 就是選擇的概率,而就是一個(gè) Boolean 值,表示在實(shí)際輸出 Y 中是選擇了通用詞還是實(shí)體。
實(shí)驗(yàn)
實(shí)驗(yàn)相關(guān)細(xì)節(jié)?
常識(shí)性知識(shí)圖譜選用了 ConceptNet,對(duì)話數(shù)據(jù)集選用了 reddit 的一千萬(wàn)條數(shù)據(jù)集,如果一個(gè) post-response 不能以一個(gè)三元組表示(一個(gè)實(shí)體出現(xiàn)于 post,另一個(gè)出現(xiàn)于 response),就將這個(gè)數(shù)據(jù)去除。然后對(duì)剩下的對(duì)話數(shù)據(jù),根據(jù) post 的詞的出現(xiàn)頻數(shù),分為四類。?
基線系統(tǒng)選擇了如下三個(gè):只從對(duì)話數(shù)據(jù)中生成 response 的 Seq2seq 模型、存儲(chǔ)了以 TransE 形式表示知識(shí)圖譜的 MemNet 模型、從三元組中 copy 一個(gè)詞或生成通用詞的 CopyNet。?
在選用 metric 的時(shí)候,采用了刻畫(huà)回復(fù)內(nèi)容是否語(yǔ)法正確且貼近主題的 perplexity,以及有多少個(gè)知識(shí)圖譜實(shí)體被生成的 entity score。
實(shí)驗(yàn)結(jié)果?
如下圖 4 所示,為根據(jù) perplexity 和 entity score 進(jìn)行的性能比較,可見(jiàn) CCM 的 perplexity 最低,且選取 entity 的數(shù)量最多。并且,在低頻詞時(shí),選用的 entity 更多。這表示在訓(xùn)練時(shí)比較罕見(jiàn)的詞(實(shí)體)會(huì)需要更多的背景知識(shí)來(lái)生成答復(fù)。
▲?圖4. CCM與基線系統(tǒng)對(duì)比結(jié)果?
另外,作者還采用眾包的方式,來(lái)人為審核 response 的質(zhì)量,并采用了兩種度量值 appropriateness(內(nèi)容是否語(yǔ)法正確,是否與主題相關(guān),是否有邏輯)與 informativeness(內(nèi)容是否提供了 post 之外的新信息)。如下圖 5 所示,為基于眾包的性能比較結(jié)果。
▲?圖5. CCM與基線系統(tǒng)基于眾包的對(duì)比結(jié)果
從圖 5 中可見(jiàn),CCM 對(duì)于三個(gè)基線系統(tǒng)來(lái)說(shuō),都有將近 60% 的回復(fù)是更優(yōu)的。并且,在 OOV 的數(shù)據(jù)集上,CCM 比 seq2seq 高出很多,這是由于 CCM 對(duì)于這些低頻詞或未登錄詞,可以用知識(shí)圖譜去補(bǔ)全,而 seq2seq 沒(méi)有這樣的知識(shí)來(lái)源。?
在 case study 中,當(dāng)在 post 中遇到未登錄詞“breakable”時(shí),seq2seq 和 MemNet 都只能輸出一些通用的、模棱兩可的、毫無(wú)信息量的回復(fù)。CopyNet 能夠利用知識(shí)圖譜輸出一些東西,但是并不合適。而 CCM 卻可以輸出一個(gè)合理的回復(fù)。?
總結(jié)
本文提出了一種結(jié)合知識(shí)圖譜信息的 encoder-decoder 方法,引入靜態(tài)/動(dòng)態(tài)圖注意力機(jī)制有效地改善了對(duì)話系統(tǒng)中 response 的質(zhì)量。通過(guò)自動(dòng)的和基于眾包的形式進(jìn)行性能對(duì)比,CCM 模型都是優(yōu)于基線系統(tǒng)的。
■ 論文解讀?| 譚亦鳴,東南大學(xué)博士,研究方向?yàn)橹R(shí)圖譜問(wèn)答、自然語(yǔ)言處理
知識(shí)庫(kù)問(wèn)答研究旨在利用結(jié)構(gòu)化事實(shí)回答自然語(yǔ)言問(wèn)題,在網(wǎng)絡(luò)中,簡(jiǎn)單問(wèn)題占據(jù)了相當(dāng)大的比例。本文提出在完成模式抽取和實(shí)體鏈接后,構(gòu)建一個(gè)模式修正機(jī)制,從而緩解錯(cuò)誤積累問(wèn)題。
為了學(xué)習(xí)對(duì)“subject-predicate”(問(wèn)題的實(shí)體-謂詞)候選集的排序,本文提出將關(guān)系檢測(cè)機(jī)制用于強(qiáng)化聯(lián)合事實(shí)選擇,多級(jí)別編碼和多維信息將被用于強(qiáng)化整個(gè)模型過(guò)程。實(shí)驗(yàn)結(jié)果表明,本方法展現(xiàn)出非常強(qiáng)大的性能。
研究背景
簡(jiǎn)單知識(shí)庫(kù)問(wèn)答,指的是問(wèn)答中僅需用到知識(shí)庫(kù)中的一個(gè)事實(shí)即可給出答案的過(guò)程。其流程和可以描述為:從自然語(yǔ)言問(wèn)句中識(shí)別實(shí)體,謂詞,并與知識(shí)庫(kù)中的內(nèi)容構(gòu)成完整三元組的過(guò)程。?
簡(jiǎn)單知識(shí)庫(kù)問(wèn)答目前存在的主要挑戰(zhàn)包括:?
1. 同一單詞(詞語(yǔ))在不同句子中的意義不同;
2. 不同的自然語(yǔ)言表達(dá)方式具有相同的含義;
3. 如何利用大規(guī)模知識(shí)庫(kù)中的大量事實(shí)信息。
論文模型
在簡(jiǎn)單問(wèn)答中,首先要做的是實(shí)體鏈接,常規(guī)的實(shí)體鏈接方法包括 n-gram 匹配,序列標(biāo)注等等,但是這兩個(gè)方法都有可能導(dǎo)致錯(cuò)誤積累,從而無(wú)法找到準(zhǔn)確的“實(shí)體-謂詞”對(duì)。?
考慮到這些問(wèn)題,本文首先使用模式抽取和實(shí)體鏈接,將可能的實(shí)體描述和問(wèn)題模式提取出來(lái),而后減少知識(shí)庫(kù)中的候選實(shí)體數(shù)量。?
在模式抽取過(guò)程中,作者發(fā)現(xiàn)由于模型性能問(wèn)題,抽取結(jié)果中存在一定比例的較差模式。為了應(yīng)對(duì)這個(gè)情況,文章提出添加模式修正機(jī)制以提升模式抽取的質(zhì)量。?
下一步工作就是找出最可能生成問(wèn)題答案的“實(shí)體-謂詞”對(duì),對(duì)于這個(gè)問(wèn)題,前人的工作中主要考慮使用問(wèn)題模式與候選實(shí)體信息來(lái)選擇合適的謂詞。本文則引入了關(guān)系檢測(cè)機(jī)制進(jìn)行改進(jìn),其效果體現(xiàn)在限定了知識(shí)庫(kù)中問(wèn)題表達(dá)對(duì)應(yīng)的謂詞,從而引導(dǎo)候選實(shí)體的重排序。?
當(dāng)問(wèn)題所問(wèn)實(shí)體在知識(shí)庫(kù)中存在大量不同類型的重名實(shí)體時(shí),先做關(guān)系推理或者實(shí)體鏈接都有可能引發(fā)無(wú)召回問(wèn)題。對(duì)此,本文的策略是采用聯(lián)合事實(shí)篩選,通過(guò)利用實(shí)體的名稱信息和類別信息從不同角度描述實(shí)體。?
在確定謂詞方面,作者采用唯一關(guān)系名與分散詞信息作為限定條件。
▲?本文問(wèn)答模型的示意圖
同時(shí)為了準(zhǔn)確保留原始問(wèn)句的內(nèi)容,本文將字符級(jí)別與詞級(jí)別的編碼結(jié)果進(jìn)行合并,用于表達(dá)原始問(wèn)句。
▲?本文編碼策略的示意圖
實(shí)驗(yàn)
本文實(shí)驗(yàn)使用的數(shù)據(jù)集為 SimpleQuestions benchmark 提供的問(wèn)答數(shù)據(jù)集,其中的每個(gè)問(wèn)題都可以由 freebase 中的一個(gè)三元組回答。?
數(shù)據(jù)集分為三個(gè)部分:訓(xùn)練集規(guī)模為75910,驗(yàn)證集為10845,測(cè)試集為21687。
知識(shí)庫(kù)則是從 freebase 中抽取的子集 FB2M (2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M (4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)。
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)為準(zhǔn)確率,僅當(dāng)問(wèn)題對(duì)應(yīng)的事實(shí)與模型得到的實(shí)體和謂詞兩者都匹配時(shí),才算準(zhǔn)確匹配。
從實(shí)驗(yàn)結(jié)果上看,本文方法相對(duì)過(guò)去的工作,取得了非常明顯的提升。
點(diǎn)擊以下標(biāo)題查看更多相關(guān)文章:?
叮!請(qǐng)查收本周份「知識(shí)圖譜」專題論文解讀
從 6 篇頂會(huì)論文看「知識(shí)圖譜」領(lǐng)域最新研究進(jìn)展
「知識(shí)圖譜」領(lǐng)域近期值得讀的 6 篇頂會(huì)論文
知識(shí)圖譜論文大合集,這份筆記解讀值得收藏
綜述 | 知識(shí)圖譜向量化表示
東南大學(xué)周張泉:基于知識(shí)圖譜的推理技術(shù)
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的最新知识图谱论文清单,就算看不懂也会忍不住收藏的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: TensorSpace:超酷炫3D神经网
- 下一篇: 重磅公开课推荐 | 如何搭建聊天机器人: