从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码
ISWC 2018
■ 鏈接 | http://www.paperweekly.site/papers/1912
■ 源碼 | https://github.com/quyingqi/kbqa-ar-smcnn
■ 解讀 | 吳桐桐,東南大學博士生,研究方向為自然語言問答
概述
隨著近年來知識庫的快速發展,基于知識庫的問答系統(KBQA )吸引了業界的廣泛關注。該類問答系統秉承先編碼再比較的設計思路,即先將問題和知識庫中的三元組聯合編碼至統一的向量空間,然后在該向量空間內做問題和候選答案間的相似度計算。該類方法簡單有效,可操作性比較強,然而忽視了很多自然語言詞面的原始信息。
因此,本文提出了一種 Attentive RNN with Similarity Matrix based CNN(AR-SMCNN)模型,利用 RNN 和 CNN 自身的結構特點分層提取有用信息。
文中使用 RNN 的序列建模本質來捕獲語義級關聯,并使用注意機制同時跟蹤實體和關系。同時,文中使用基于 CNN 的相似矩陣和雙向池化操作建模數據間空間相關性的強度來計算詞語字面的匹配程度。
此外,文中設計了一種新的實體檢測啟發式擴展方法,大大降低了噪聲的影響。文中的方法在準確性和效率上都超越了 SimpleQuestion 基準測試的當前最好水平。
模型
模型如上圖所示,假設單關系問題可以通過用單一主題和關系論證來查詢知識庫來回答。因此,只需要元組(s,r)來匹配問題。只要s和r的預測都是正確的,就可以直接得到答案(這顯然對應于o)。
根據上述假設,問題可以通過以下兩個步驟來解決:
1. 確定問題涉及的 Freebase 中的候選實體。給定一個問題 Q,我們需要找出實體提及(mention)X,那么名稱或別名與實體提及相同的所有實體將組成實體候選 E。現在 E 中的所有實體都具有相同的實體名稱,因此我們暫時無法區分他們。具體地,模型中將命名實體識別轉換成了基于 Bi-LSTM 完成的序列標注任務。
2. 所有與 E 中的實體相關的關系都被視為候選關系,命名為 R。我們將問題轉換為模式 P,它是通過用 <e> 替換問題中的提及而創建的。為了找出與問題真正相關的關系,我們將 P 與 R 中的每個關系進行比較并對它們進行評分,然后將得分最高的關系作為最終結果。
為了更好地進行關系匹配,模型從單詞字面表達和語義兩個層面對自然語言進行了建模。具體操作如下圖所示:
圖中所示的 AR-SMCNN 模型,輸入是經替換 mention 后的問題模版(pattern)P 和候選關系 。
模型左邊的部分是結合了 attention 機制的 BiGRU,用于從語義層面進行建模。右邊的部分是 CNN 上的相似性矩陣,用于從字面角度進行建模。最終將特征
總結
以上是生活随笔為你收集整理的从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你不得不看的六篇知识图谱落地好文
- 下一篇: 揭开知识库问答KB-QA的面纱1·简介篇