论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
Mohnish Dubey, Debayan Banerjee, Debanjan Chaudhuri, Jens Lehmann: EARL: Joint Entity and Relation Linking for Question Answering over Knowledge Graphs. International Semantic Web Conference (1) 2018: 108-126
鏈接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-00671-6_7.pdf
研究背景
面向知識(shí)庫(kù)的語(yǔ)義問(wèn)答是指將用戶(hù)的自然語(yǔ)言問(wèn)句轉(zhuǎn)換為可以在知識(shí)庫(kù)上執(zhí)行的形式化查詢(xún)并獲取答案,其面臨的挑戰(zhàn)主要有以下幾點(diǎn):1)實(shí)體的識(shí)別和鏈接;2)關(guān)系的識(shí)別和鏈接;3)查詢(xún)意圖識(shí)別;4)形式化查詢(xún)生成。其中實(shí)體鏈接和關(guān)系鏈接是指將自然語(yǔ)言問(wèn)句中的詞匯(或短語(yǔ))鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體或關(guān)系。大多數(shù)現(xiàn)有問(wèn)答系統(tǒng)依次或并行執(zhí)行實(shí)體鏈接和關(guān)系鏈接步驟,而本工作將這兩個(gè)步驟合并,提出了1)基于廣義旅行商問(wèn)題的 以及 2)基于連接密度相關(guān)特征進(jìn)行機(jī)器學(xué)習(xí)的 兩種聯(lián)合鏈接方法。下表展示了不同種類(lèi)的鏈接方法的優(yōu)缺點(diǎn)。
框架及方法
上圖展示了本文提出的聯(lián)合的實(shí)體關(guān)系鏈接框架(EARL,Entity and Relation Linking),主要包括如下兩個(gè)步驟:
1)? 預(yù)處理步驟(左側(cè)紅框內(nèi)),包括如下三個(gè)子過(guò)程:
利用SENNA系統(tǒng)從輸入的自然語(yǔ)言問(wèn)句中抽取出若干關(guān)鍵詞短語(yǔ)。對(duì)于圖中輸入的問(wèn)句,這里抽取到的關(guān)鍵詞短語(yǔ)是<founder,Tesla, SpaceX, born>。
對(duì)于每個(gè)關(guān)鍵詞,使用基于字符嵌入(character embedding)的LSTM網(wǎng)絡(luò)判斷它是知識(shí)庫(kù)中的關(guān)系還是實(shí)體。對(duì)于上個(gè)過(guò)程中的關(guān)鍵詞短語(yǔ),這一步將“founder”和“born”識(shí)別為關(guān)系, 將“Tesla”和“SpaceX”識(shí)別為實(shí)體。
為每個(gè)關(guān)鍵詞短語(yǔ)生成候選實(shí)體或關(guān)系列表。對(duì)于問(wèn)句中的實(shí)體名,利用預(yù)先收集的URI-label詞典,以及Wikidata中的實(shí)體別名、sameas關(guān)系等進(jìn)行生成。對(duì)于關(guān)系詞,利用Oxford Dictionary API和fastText擴(kuò)展知識(shí)庫(kù)上的關(guān)系名后進(jìn)行關(guān)聯(lián)。
2)? 聯(lián)合消歧步驟(右側(cè)黃框內(nèi)),主要包括本文提出的兩個(gè)核心方法:
基于廣義旅行商問(wèn)題(GTSP)的消歧方法。如下圖所示,該方法將每個(gè)關(guān)鍵詞的候選URI放入同一個(gè)簇。邊的權(quán)重被設(shè)置為兩個(gè)URI在知識(shí)庫(kù)上的距離(hop數(shù)),而聯(lián)合消歧過(guò)程被建模為在該圖上尋找一條遍歷每個(gè)簇的邊權(quán)總和最小的路(頭尾結(jié)點(diǎn)可以不同)。對(duì)于GTSP問(wèn)題的求解,本工作先將其轉(zhuǎn)換為T(mén)SP問(wèn)題,后使用Lin-Kernighan-Helsgaun近似算法進(jìn)行求解。圖中加粗的邊表示該示例的求解結(jié)果。
????b. 基于連接密度相關(guān)特征進(jìn)行機(jī)器學(xué)習(xí)的消歧方法。對(duì)于每個(gè)關(guān)鍵詞的所有候選URI,分別抽取特征 R_i (候選列表中的排序位置), C (2步以?xún)?nèi)可達(dá)的其他關(guān)鍵詞的候選URI的數(shù)量),H (到其他關(guān)鍵詞的候選URI的平均步數(shù))三個(gè)特征,采用xgboost分類(lèi)器篩選最合適的候選。
下表總結(jié)了上述兩個(gè)消歧方法的差異:
????c. 額外的,本文提出了一種自適應(yīng)實(shí)體/屬性預(yù)測(cè)方法。如果消歧后某個(gè)實(shí)體/關(guān)系和它最終鏈接到的URI的置信度低于閾值,則可能預(yù)處理步驟的第二個(gè)子過(guò)程(實(shí)體/關(guān)系預(yù)測(cè))有錯(cuò)誤。在這種情況下,該工作會(huì)更改該關(guān)鍵詞的實(shí)體/關(guān)系標(biāo)簽,重新執(zhí)行候選生成和消歧步驟,從而獲得整體精度的提升。
實(shí)驗(yàn)
本文選用了LC-QuAD問(wèn)答數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),包含5000個(gè)問(wèn)句。其標(biāo)準(zhǔn)答案(實(shí)體/關(guān)系對(duì)應(yīng)的URI)采用人工標(biāo)注的方法進(jìn)行生成,可以在https:// figshare.com/projects/EARL/28218下載。除此以外本文還選用了現(xiàn)有的QALD-7問(wèn)句集(https://project-hobbit.eu/challenges/qald2017/)進(jìn)行測(cè)試。
實(shí)驗(yàn)結(jié)果如下表所示,和對(duì)比方法相比,EARL在MRR值上有較大提升。
實(shí)體鏈接結(jié)果:
關(guān)系鏈接結(jié)果:
論文筆記整理:丁基偉,南京大學(xué)博士生,研究方向?yàn)橹R(shí)圖譜、知識(shí)庫(kù)問(wèn)答。
OpenKG.CN
中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱(chēng)OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來(lái)源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請(qǐng)注明原標(biāo)題。
?
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 - WSDM20 | 基于弱监
- 下一篇: 论文浅尝 - EMNLP | 通过元强化