论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
Qu Y,Liu J, Kang L, et al. Question Answering over Freebase via Attentive RNN withSimilarity Matrix based CNN[J]. arXiv preprint arXiv:1804.03317, 2018.
概述
隨著近年來知識庫的快速發(fā)展,基于知識庫的問答系統(tǒng)(KBQA )吸引了業(yè)界的廣泛關(guān)注。該類問答系統(tǒng)秉承先編碼再比較的設(shè)計(jì)思路,即先將問題和知識庫中的三元組聯(lián)合編碼至統(tǒng)一的向量空間,然后在該向量空間內(nèi)做問題和候選答案間的相似度計(jì)算。該類方法簡單有效,可操作性比較強(qiáng),然而忽視了很多自然語言詞面的原始信息。因此,本文中提出了一種 Attentive RNN with Similarity Matrix based CNN(AR-SMCNN)模型,利用 RNN 和 CNN 自身的結(jié)構(gòu)特點(diǎn)分層提取有用信息。文中使用 RNN 的序列建模本質(zhì)來捕獲語義級關(guān)聯(lián),并使用注意機(jī)制同時(shí)跟蹤實(shí)體和關(guān)系。同時(shí),文中使用基于 CNN 的相似矩陣和雙向池化操作建模數(shù)據(jù)間空間相關(guān)性的強(qiáng)度來計(jì)算詞語字面的匹配程度。此外,文中設(shè)計(jì)了一種新的實(shí)體檢測啟發(fā)式擴(kuò)展方法,大大降低了噪聲的影響。文中的方法在準(zhǔn)確性和效率上都超越了SimpleQuestion基準(zhǔn)測試的當(dāng)前最好水平。
?
模型
模型如上圖所示,假設(shè)單關(guān)系問題可以通過用單一主題和關(guān)系論證來查詢知識庫來回答。因此,只需要元組(s,r)來匹配問題。只要s和r的預(yù)測都是正確的,就可以直接得到答案(這顯然對應(yīng)于o)。根據(jù)上述假設(shè),問題可以通過以下兩個(gè)步驟來解決:
確定問題涉及的Freebase中的候選實(shí)體。給定一個(gè)問題 Q,我們需要找出實(shí)體提及(mention)X,那么名稱或別名與實(shí)體提及相同的所有實(shí)體將組成實(shí)體候選E.現(xiàn)在E中的所有實(shí)體都具有相同的實(shí)體名稱,因此我們暫時(shí)無法區(qū)分他們。具體地,模型中將命名實(shí)體識別轉(zhuǎn)換成了基于 Bi-LSTM 完成的序列標(biāo)注任務(wù)。
所有與 E 中的實(shí)體相關(guān)的關(guān)系都被視為候選關(guān)系,命名為 R. 我們將問題轉(zhuǎn)換為模式 P,它是通過用<e>替換問題中的提及而創(chuàng)建的。為了找出與問題真正相關(guān)的關(guān)系,我們將 P 與 R 中的每個(gè)關(guān)系進(jìn)行比較并對它們進(jìn)行評分,然后將得分最高的關(guān)系作為最終結(jié)果。為了更高的進(jìn)行關(guān)系匹配,模型從單詞字面表達(dá)和語義兩個(gè)層面對自然語言進(jìn)行了建模。具體操作如下圖所示:
圖中所示的 AR-SMCNN 模型,輸入是經(jīng)替換 mention 后的問題模版(pattern)P 和候選關(guān)系 rk。模型左邊的部分是結(jié)合了 attention 機(jī)制的 BiGRU,用于從語義層面進(jìn)行建模。右邊的部分是CNN上的相似性矩陣,用于從字面角度進(jìn)行建模。最終將特征
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玩转二算法课的笔记-第一章
- 下一篇: 论文浅尝 | SenticNet 5: