论文浅尝 - AAAI2020 | 通过句子级语义匹配和答案位置推断改善问题生成
論文筆記整理:王春培,天津大學碩士。
?
鏈接:https://arxiv.org/pdf/1912.00879.pdf
動機
本文主要聚焦問答系統(Q&A)的反問題---問題生成(Question Generation,Q&G)。問題生成的目的是在給定上下文和相應答案的情況下生成語義相關的問題,問題生成任務可分為兩類:一類是基于規則的方法,即在不深入理解上下文語義的情況下手動設計詞匯規則或模板,將上下文轉換成問題。另一類是基于神經網絡的、直接從語句片段中生成問題詞匯的方法,包括序列-序列模型(seq-to-seq)、編碼器解碼器(encoder-decoder)等。本文討論的是后一種基于神經網絡的問題生成方法。
目前,基于神經網絡的問題生成模型主要面臨以下兩個問題:(1)錯誤的關鍵詞和疑問詞:模型可能會使用錯誤的關鍵詞和疑問詞來提問;(2)糟糕的復制機制:模型復制與答案語義無關的上下文單詞。本文旨在解決以上兩個問題。
亮點
本文的亮點主要包括:
(1)以多任務學習的方式學習句子級語義
(2)引入答案位置感知。
概念及模型
本文提出,現有的基于神經網絡的問題生成模型之所以出現上述兩個問題是因為:
(1)解碼器在生成過程中可能只關注局部詞語義而忽略全局問題語義;
(2)復制機制沒有很好地利用答案位置感知特征,導致從輸入中復制與答案無關的上下文單詞。為了解決這兩個問題,作者提出以多任務學習的方式學習句子級語義,以及引入答案位置感知。
模型體系結構
下圖為具有句子級語義匹配、答案位置推斷和門控融合的神經問題生成模型圖:
給定包含答案 A 的語句 X=[x1,x2,...,xm],基于連續擴展的語句,生成與 X 和 A 語義匹配的問題 Y。與文獻 [1] 的方法一致,利用擴展的語義和詞匯特征、部分語音標簽、答案位置特征等作為 seq-to-seq 模型嵌入層的輸入,利用雙向 LSTM 作為編碼器,通過鏈接前向隱藏狀態和后向隱藏狀態生成句子表示 H=[h1,h2,...,hm]:
答案感知門控融合:使用兩個由 Sigmoid 函數計算的信息流門來控制句子向量和答案向量的信息流,將答案起始位置的隱藏狀態作為答案向量 h_a,使用雙向 LSTM 編碼整個答案語義。
解碼器(Decoder):以編碼器的隱藏狀態 H=[h1,h2,…,hm] 作為上下文和改進的答案感知句子向量 z 作為初始隱藏狀態 s1,一層單向 LSTM 用先前解碼的單詞作為輸入wt更新其當前隱藏狀態st。
利用注意力機制將當前解碼器狀態 s_t 賦給編碼器上下文 H=[h1,h2,…,hm]。使用歸一化處理后的注意向量α_t 的加權求和結果計算上下文向量 c_t。基于詞典 V,計算問題單詞 y_t:
其中,f 由兩層前饋網絡實現。
注意力機制:使用注意力機制生成大小為 V 的單詞,或從輸入語句 X 中復制單詞。在生成問題詞 y_t 時,考慮到當前解碼器的隱藏狀態 s_t 和上下文向量 c_t,計算一個復制開關來確定生成的詞是從字典生成的還是從源語句復制的。
生成模式概率和復制模式概率相結合,得到最終的單詞分布:
使用負對數似然來計算序列-序列的損失:
句子級語義匹配:通過門控融合得到了改進的答案感知句子向量 z。對于解碼器(單向 LSTM),采用最后一個隱藏狀態 s_n 作為問題向量。訓練兩個分類器,分別將非語義匹配對 [z,S』_n](S,Q』)和 [z』,S_n](S,Q)與語義匹配對 [z,S_n](S,Q)區分開來,其中 z』和 s』是同一段落中隨機抽取的不匹配句子和問題的向量。
將兩個分類器的二元交叉熵之和作為句子級語義匹配損失:
具體流程如下所示:
答案位置推斷:引入雙向注意力流網絡推斷答案位置,如下圖:
采用句子對問題注意和問題對句子注意來強調每個句子詞和每個問題詞之間的相互語義關聯,并利用相似的注意機制得到了問題感知的句子表征 H 和句子感知的問題表征 S:
然后,使用兩個兩層雙向 LSTMs 來捕獲以問題為條件的句子詞之間的相互作用。答案起始索引和結束索引由輸出層使用 Softmax 函數預測:
其中,f 函數是一個可訓練的多層感知(MLP)網絡。使用真值答案起始標記 y1 和結束標記的負對數似然來計算損失:
為了在多任務學習方法中聯合訓練生成模型和所提出的模塊,訓練過程中的總損失函數記為:
實驗
作者在 SQuAD 和 MARCO 兩個數據集上進行了實驗,使用 NQG++[1]、Point-generator[2] 以及 SOTA 模型、門控自注意力機制模型等作為基線對比算法。表 3 給出了 SQuAD 和 MS-MARCO 數據集上不同模型的主要指標,在文章所述的實驗條件下,本文提出的模型在全部主要指標上都優于基線對比算法。
總結
與現有的問答系統、問題生成模型的處理方式不同,本文并不是通過引入更多的有效特征或者改進復制機制本身等來改進模型效果,而是直接在經典序列-序列模型(seq-to-seq)中增加了兩個模塊:句子級語義匹配模塊和答案位置推斷模塊。此外,利用答案感知門控融合機制來增強解碼器的初始狀態,從而進一步改進模型的處理效果。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 通过句子级语义匹配和答案位置推断改善问题生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 利用问题生成提升知识图谱问
- 下一篇: 征稿 | “健康知识图谱”投稿通道开启