论文浅尝 - AAAI2020 | 小样本知识图谱补全
筆記整理 | 劉克欣,天津大學(xué)碩士
鏈接:https://arxiv.org/pdf/1911.11298.pdf
動機(jī)
知識圖譜對于許多下游應(yīng)用(例如搜索,知識問答和語義網(wǎng))至關(guān)重要。然而,現(xiàn)有知識圖譜面臨不完整的問題。知識圖譜補全工作能讓知識圖譜變得更加完整,是目前人工智能領(lǐng)域的一個研究熱點?,F(xiàn)有的知識圖譜補全工作大多需要大量的實體對來進(jìn)行關(guān)系推斷。但是,實際數(shù)據(jù)集中關(guān)系的頻率分布通常具有長尾問題, 關(guān)系的很大一部分在知識圖譜中只有很少的實體對。處理數(shù)量有限(數(shù)量很少)的實體對的關(guān)系是非常重要且具有挑戰(zhàn)性的。針對上述問題,文章提出了一種少樣本關(guān)系學(xué)習(xí)模型FewShot Relation Learning model(FSRL),其目的是學(xué)習(xí)一個匹配函數(shù),該函數(shù)可以在給定每個關(guān)系的少量參考實體對的情況下,有效地推斷出真正的實體對。
亮點
文章的亮點主要包括:
(1)首次提出小樣本情景下的知識圖譜補全任務(wù),更適合實際場景;
(2)提出了一種融合了一些可學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模塊的小樣本關(guān)系學(xué)習(xí)模型解決小樣本知識圖譜補全問題。
概念及模型
針對小樣本知識圖譜預(yù)測,FSRL要解決的具體問題是:給出少量實體對(參考集)的情況下,根據(jù)給定頭實體??和查詢關(guān)系??預(yù)測尾實體??。
FSRL由三個主要部分組成:
(1)為每個實體編碼異構(gòu)鄰居;?
(2)對每個關(guān)系的少量參考實體對進(jìn)行匯總;?
(3)將查詢對與參考集進(jìn)行匹配以進(jìn)行關(guān)系預(yù)測。
模型整體框架如下:
編碼異構(gòu)鄰居
此模塊功能為一個關(guān)系可感知的異構(gòu)鄰居編碼器。基于給定頭實體??的關(guān)系鄰居的集合被表示為:
其中,表示背景知識圖譜,?, 分別表示第個關(guān)系和相應(yīng)的的尾部實體。
文章引入注意力機(jī)制計算的異構(gòu)鄰居特征,并使用以下公式計算的embedding:
其中,和分別表示預(yù)學(xué)習(xí)的和的embedding。
融合小樣本參考集
此部分的功能是對參考集中的每個關(guān)系的embedding進(jìn)行聚合。
其中,??是一個聚合函數(shù)。
基于圖的embedding,作者設(shè)計了一個循環(huán)自編碼聚合器。更具體來說,實體對embeddings 被順序喂到循環(huán)自編碼器:
其中,是參考集的大小。編碼器和解碼器的隱藏狀態(tài)和通過以下公式計算:
優(yōu)化自編碼器的重構(gòu)損失如下:
為了形成參考集的embedding,作者聚合了所有編碼的隱層狀態(tài)并通過殘差連接與注意力權(quán)重機(jī)制進(jìn)行拓展。的計算公式如下:
其中,為聚合的embedding的維度。
匹配查詢集和參考集
在前兩個模塊的基礎(chǔ)上,現(xiàn)在可以基于參考集有效的對每個查詢實體對進(jìn)行匹配操作。首先通過對查詢實體對和參考集分別進(jìn)行與操作,從而分別得到兩個embedding向量: 和。
為了衡量兩個向量的相似性,作者采用了一個循環(huán)處理器 去完成多步匹配。第個過程步的如下:
其中,輸入為,隱藏狀態(tài)為,細(xì)胞狀態(tài)為。過程步后的隱層狀態(tài)記為:。
目標(biāo)函數(shù)和模型訓(xùn)練
對于每一個關(guān)系,我們隨機(jī)選擇一些正樣本實體對并把它們作為參考集。剩余的實體對作為正樣本查詢對。此外,也構(gòu)建了負(fù)樣本實體對。排列損失記為:
其中, 為標(biāo)準(zhǔn)的hinge 損失,表示安全邊界距離(本文取值為5)。
最終優(yōu)化函數(shù)如下:
其中,表示參考集聚合的重構(gòu)損失。表示兩者的權(quán)衡因子(本文取值為0.0001)。
理論分析
實驗
作者采用了2個公開數(shù)據(jù)集進(jìn)行實驗,分別是:NELL (Mitchell et al. 2018)和Wikidata (Vrandeˇci′c and Kr¨otzsch 2014)。首先是有效性實驗,模型的評價指標(biāo)為:Hits@k 和 MRR。
圖鄰居編碼器方法(GMatching)優(yōu)于關(guān)系嵌入方法,表明將圖局部結(jié)構(gòu)和匹配網(wǎng)絡(luò)相結(jié)合對于學(xué)習(xí)實體嵌入和預(yù)測新關(guān)系的事實是有效的。
本文提出的FSRL在所有情況下均能達(dá)到最佳性能。在NELL和Wiki數(shù)據(jù)中,相對于最佳基準(zhǔn)方法的平均相對改進(jìn)分別高達(dá)34%和15%。它證明了FSRL模型的有效性。異構(gòu)鄰居編碼器和遞歸自動編碼器聚合網(wǎng)絡(luò)有利于知識圖譜中的小樣本關(guān)系預(yù)測。
除了所有關(guān)系預(yù)測的整體性能,我們還進(jìn)行實驗以評估模型對于NELL測試數(shù)據(jù)中每個關(guān)系的預(yù)測性能。在大多數(shù)情況下,FSRL的性能要優(yōu)于GMatching。它證明了我們的模型對于不同的關(guān)系是魯棒的,并且在大多數(shù)關(guān)系上都優(yōu)于GMatching。
作者還進(jìn)行了實驗以分析小樣本中每類樣本數(shù)K的影響。
隨著K的增加,兩個模型的性能都會提高。這表明較大的參考集可以為該關(guān)系產(chǎn)生更好的參考集嵌入。在不同的K中,本文的模型始終優(yōu)于GMatching,這證明了所提出的模型對于知識圖譜中的小樣本關(guān)系補全的穩(wěn)定性。
文章還可視化了每個關(guān)系的正候選實體對和負(fù)候選實體對的2D嵌入。
從圖中可以看出,兩種方法都能很好地區(qū)分正候選和負(fù)候選的嵌入。然而,本文的模型取得了更好的性能,并且兩個類的嵌入明顯不同,這進(jìn)一步證明了所提出的模型在可視化方面的優(yōu)越性能。
總結(jié)
文章提出了一個新的小樣本知識圖譜補全問題,并提出了一種創(chuàng)新的小樣本關(guān)系學(xué)習(xí)模型,即FSRL,以解決該問題。FSRL對關(guān)系感知的異構(gòu)鄰居編碼器、遞歸自動編碼器聚合網(wǎng)絡(luò)和匹配網(wǎng)絡(luò)進(jìn)行聯(lián)合優(yōu)化。在兩個公共數(shù)據(jù)集上的實驗表明,FSRL方法的性能優(yōu)于現(xiàn)有的基準(zhǔn)方法。此外,消融研究驗證了每個模型組件的有效性。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 小样本知识图谱补全的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | 利用常
- 下一篇: 论文浅尝 | 基于时序知识图谱的问答