论文浅尝 - WWW2020 | 生成多跳推理问题以改善机器阅读理解能力
論文筆記整理:譚亦鳴,東南大學博士生。
來源:WWW 2020
鏈接:
https://dl.acm.org/doi/pdf/10.1145/3366423.3380114
概述
這篇論文關注的任務是:基于給定文本的“多跳問題生成”(多關系問題)。
作者提出的方法大致可以描述為:
1.基于實體的上下文關系,將分布于文本中的實體融合為一個實體圖;
2.通過證據關系及類型,從實體圖中抽取子圖,構成推理鏈(同時也獲得對應的局部文本信息);
3.基于推理鏈,構建了一個整合的“生成-評價”網絡模型,實現多跳問題的生成。
其中,作者將生成過程(生成器)設計為一個強化了問題句法和語義合理性的seq2seq模型;
在評價方面,作者通過建立一個混合監督學習與強化學習的評價機制,同時用于生成模型的優化。
本工作使用的數據集為:HotpotQA
問題生成方法的主要作用是構建偽訓練標注集用于彌補數據集不足的問題。
背景與動機
本工作主要關聯的一個NLP是:多跳機器閱讀理解:即使機器完全理解文本語義,并回答一般的問題(尤其是需要學習推理)。因此這里的問題生成主要基于包含多實體/關系的文本數據。
從現有的問題生成方法上看:
1. 基于模板的方法受限于手寫模板對于問題類型的覆蓋能力;
2. 目前的 seq2seq 問題生成方法無法捕獲和合成多個句子之間的證據(evidence,本質上,連續的relation)。
(個人認為真實情況下,這里應該隱含一個問題:“多個文本句子之間的指代消解問題”,但是從后文的方法和實驗來看,數據樣本中并沒有遇到這樣的挑戰)
因此基于上述現有挑戰,作者提出了本文問題生成方法。
方法
圖2是本文問題生成方法的一個過程示意圖,其中主要的部分是:
1.實體圖:
用于捕獲實體以及它們的上下文關系(從給定的文本中)。接著從實體圖中找到一些證據性關系,構成推理鏈(這步著實關鍵),啟發式的從文本中抽取與回答問題相關的部分(包括:1.答案,推理類型,證據實體和實體的句子)
2.整合的生成評價網絡:
生成器:首先抓取推理鏈上的證據關系(使用GCN),使用一個seq2seq網絡生成問題(基于抽取的上下文)。同時伴隨一些類后處理機制(重復詞生成;錯誤的答案相關詞;無關詞的復制;與答案類型無關的疑問詞)
評價器:首先基于監督損失進行預訓練,而后通過混合的監督與強化學習損失做fine-tune
問題生成的過程可以看作:
其中,Y是生成的問題,A是答案,B是給定文本。Y={y1,y2,…,yt} 生成的問題長度為t,因此也可以表示為對每個生成詞的條件概率最大化。
實體圖的具體構建過程是:
首先使用Stranford CoreNLP toolkit 確定句子中的實體(及類型:人,地點,代詞),以及它們的上下文;(句子中的相同實體:包括指代,重復出現,部分出現(復述,使用序列相似度確定))
得到實體圖之后,作者設計了三種類型的子圖(抽取規則)
Sequence:需要使用證據實體充當序列鏈(從問題到答案)的橋梁
Interp:交集(從sequence的中間截取answer)
Comparison:比較型問題
圖4是整個模型的框架圖,可以看到各個步驟中具體使用到的編碼和解碼網絡類型以及評價使用的混合損失函數與reward(作者在原文中詳細的描述了各個部分運算的過程,這里就不贅述了):
模型的主要輸入是::1. 推理鏈;2.相關實體,上下文句子,答案
實驗及結果
實驗部分作者首先分析了數據集規模對MRC-QA(機器閱讀理解問答)模型的影響,如圖5所示,顯然更大規模的(達到一定質量的)訓練集往往帶來更好的性能。
作者收集了現有的MRC-QA方法,并給出了它們的性能對比(表1),接著在DFGN(SOAT模型)上使用QG方法進行了改進(圖6)。
接著作者對比了不同問題類型上方法的效果(表2),以及本文QG方法與其他(SOAT)QG方法的統計對比(表3):
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - WWW2020 | 生成多跳推理问题以改善机器阅读理解能力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 多模态知识图谱
- 下一篇: 论文浅尝 - COLING2020 |