论文浅尝 | 机器阅读理解中常识知识的显式利用
論文筆記整理:吳林娟,天津大學碩士,自然語言處理方向。
鏈接:https://arxiv.org/pdf/1809.03449.pdf
動機
機器閱讀理解(MRC)和人類進行閱讀理解之間還存在差距,作者認為主要體現在對于數據的需求和噪聲魯棒性上,人類往往擁有大量的常識性知識,從短文中就能進行深刻的閱讀理解。所以在文章中,作者探索了如何將MRC模型的神經網絡與常識相結合,并基于常識數據的擴展,實現了一個端到端的知識輔助閱讀器(KAR)機器閱讀模型。KAR在性能上可與最新的MRC模型相媲美,并且在噪聲方面具有更強的魯棒性。當只有一部分訓練樣本(20%–80%)可用時,KAR能大大超越最新的MRC模型,并且仍具有相當強的抗噪能力。
亮點
(1)提出了一個數據豐富的方法,作者使用WordNet從每個給定的段落-問句對中提取詞間語義聯系作為常識。題目中之所以叫常識知識的顯式使用,是作者探索的一種和目前把常識編碼后增強單詞或上下文表示的形式不同的方法,對常識知識的使用更好理解和控制。
(2)作者提出了一個名為知識輔助閱讀器(KAR)的端到端MRC模型,該模型使用提取到的常識來輔助其注意機制,增強模型的閱讀理解能力,削弱噪聲的影響。實驗證明了模型的先進性。
方法及模型
數據豐富的方法
主要是基于WordNet從每個給定的段落-問句對中提取詞間語義聯系作為常識數據提供給MRC模型。
1、語義關系鏈
WordNet是英語的詞匯數據庫,其中單詞根據其含義被組織為同義詞集,同義詞集通過語義關系進一步相互關聯,總共有十六種語義關系類型(例如,上位詞,下位詞,全稱,副詞,屬性等)。基于同義詞集和語義關系,作者定義了一個新概念:語義關系鏈。
語義關系鏈是語義關系的級聯序列,它將一個同義詞集鏈接到另一個同義詞集。
例如,同義詞集“keratin.n.01”通過語義關系“substance holonym”與同義詞集“feather.n.01”相關,同義詞集“ feather.n.01”通過語義關系“partholonym”與同義詞集“ bird.n.01”相關,而同義詞集“bird.n.01”通過語義關系“ hyponym”與同義詞集“parrot.n.01”相關,因此“ substance holonym -> part holonym-> hyponym”是一條語義關系鏈,將同義詞集“ keratin.n.01”鏈接到同義詞集“ parrot.n.01”。文中將語義關系鏈中的每個語義關系命名為一跳,因此上述語義關系鏈是3跳鏈,每個單獨的語義關系都等效于1跳鏈。
2、詞間語義連接
給定一個詞 ω,同義詞集表示為 Sω,同義詞集 Sω 以及從 Sω 可以用語義關系鏈擴展到的其他同義詞集共同組成 S*ω,如果對語義關系鏈沒有限制的話 S*ω 將擁有所有同義詞集這是沒有意義的,所以作者提出了:當且僅當 Sω1^* (k)∩Sω2≠?,單詞ω1才與另一個單詞ω2語義連接,k表示語義關系鏈的最大允許跳數。
3、常識知識提取
結合文章的模型,作者僅提取了詞間語義連接的位置信息,并設置超參數來控制提取結果的數量。如果將其設置為0,則單詞間語義連接將僅存在于同義詞之間;如果增加,更多詞之間將存在詞間語義聯系。但是,由于自然語言的復雜性和多樣性,提取的結果中只有一部分可以用作有用的常識,而其余部分對于預測答案范圍則毫無用處,所以參數不可設置太大。
知識輔助閱讀器
KAR模型主要由五層構成:詞典嵌入層、上下文嵌入層、粗記憶層、精記憶層、答案跨度預測層。
?????? 1、知識輔助的相互關注
?????? 作為粗記憶層的一部分,知識輔助的相互關注旨在將問題上下文嵌入 C_Q融合到段落上下文嵌入 C_p 中,關鍵問題是計算每個段落上下文嵌入 c_pi 和問題上下文嵌入 c_qj 之間的相似度:
帶*號的向量是指經過了之前提取的常識知識加強之后的向量。基于以上相似度函數和增強的上下文嵌入,為執行知識輔助的相互關注,首先作者構建了知識輔助的相似度矩陣A,其中A_(i,j)=f^*(C_pi, c_qj)。關注段落的問題總表示R_Q和關注問題的段落總表示R_p為:
最后經過具有ReLU激活的稠密層把 C_p,C_Q,C_P?C_Q 和 R_P?R_Q 串聯,得到輸出G??∈R^(d×n)。
??????? 2、知識輔助的自我注意
??????? 作為精記憶層的一部分,知識輔助的自我關注旨在將粗記憶層G融合到自身中。作者使用預先提取的常識來確保每個段落詞的粗記憶融合僅涉及其他段落詞的精確子集。特別的,對于每個段落詞 p_i,粗記憶是g_pi,提取到的常識集合為E_pi,通過搜集G的列(索引由E_pi給出)可以獲匹配的粗記憶,然后構造一個g_pi參與的Z總表示,可以獲得匹配的向量 g_(pi)^+:
最后經過具有ReLU激活的稠密層把g_pi和g_(pi)^+串聯,獲得融合結果 h_pi,輸出為 H={h_p1, h_p2,..., h_pn}。
?
實驗
作者將KAR需要與其他MRC模型的性能和抗噪性進行比較,具體來說,不僅需要評估開發集和測試集上KAR的性能,還要評估對抗集上的性能。所以主要和以下五個模型進行了比較:
在開發集和測試集上,KAR的性能與最新的MRC模型相當。在對抗集上,KAR大大優于最新的MRC模型。 也就是說,KAR在性能上可與最新的MRC模型相媲美,并且在噪聲方面比它們具有更強的魯棒性。
作者分析了模型表現優良的原因:
1、KAR旨在利用數據豐富方法中預先提取的詞間語義連接。某些詞間語義連接,尤其是通過多跳語義關系鏈獲得的詞間語義連接,對于預測答案范圍非常有用。
2、從段落-問題對中提取的詞間語義聯系通常也會出現在許多其他段落-問題對中,因此從少量訓練示例中提取的詞間語義聯系很可能實際上覆蓋了更大的培訓示例。
3、一些單詞間的語義聯系分散了對答案范圍的預測。例如,鑒于上下文“銀行經理正沿著水邊走”,“銀行”和“水邊”之間的詞間語義聯系毫無意義。正是知識輔助的注意力機制使KAR能夠忽略這種分散注意力的詞間語義聯系,從而僅使用重要的語義聯系。
總結
在文章中,作者創新地將MRC模型的神經網絡與人類的常識相結合。實驗結果表明KAR的端到端的MRC模型的效果很好,文章提出的使用WordNet進行常識知識的顯式使用來提高MRC模型性能和魯棒性確實是一個不錯的思路。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 机器阅读理解中常识知识的显式利用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 开源大学在线实践数据集及知
- 下一篇: 资源征集 | 2021年全国知识图谱与语