博士学位论文 | 机器阅读理解与文本问答技术研究
作者丨胡明昊
學校丨國防科技大學博士生
研究方向丨機器閱讀理解
引言
文本問答是自然語言處理中的一個重要領域,隨著一系列大規模高質量數據集的發布和深度學習技術的快速發展,文本問答技術在近年來引起了學術界與工業界的廣泛關注。如圖 1 所示,近幾年文本問答相關論文數量增長迅速,同時問答任務的種類也越來越多樣化。
▲?圖1. 近年來基于深度學習的文本問答學術論文數量隨年份變化情況統計(數據統計于ACL、EMNLP、NAACL、NIPS、AAAI等各大頂級學術會議)
機器閱讀理解(Machine Reading Comprehension)是文本問答的一個子類,旨在令機器閱讀并理解一段自然語言組成的文本,并回答相關問題。通過這種任務形式,我們可以對機器的自然語言理解水平進行評估,因此該任務具有重要的研究價值。
早期的閱讀理解研究受限于數據集規模以及自然語言處理技術的發展,進展較為緩慢。直到 2015 年,谷歌發布首個大規模完形填空類閱讀理解數據集 CNN/Daily Mail [1],引發了基于神經網絡的閱讀理解研究熱潮。2016 年,SQuAD 數據集 [2] 被斯坦福大學發布,并迅速成為了抽取式閱讀理解的基準測試集。
隨后至今,機器閱讀理解領域發展迅速,各類任務如開放域式、多選式、聊天式和多跳式等不斷涌現。此外,閱讀理解模型性能也不斷刷新記錄,在 SQuAD 數據集上甚至達到了超越人類的性能指標,如圖 2 所示。
▲?圖2. SQuAD排行榜上代表性模型性能走勢圖
盡管取得了如此成就,機器閱讀理解仍然面臨著許多挑戰,如:1)當前方法的模型結構和訓練方法中存在著制約性能的問題;2)當前具備頂尖性能的集成模型在實際部署時效率低下;3)傳統方法無法有效處理原文中找不到答案的情況;4)當前大部分模型是針對單段落場景設計的,無法有效擴展至開放域問答;5)當前大部分模型無法有效支持離散推理和多答案預測等情況。?
針對上述存在的挑戰,本文從以下五個方面開展研究:?
強化助記閱讀器(Reinforced Mnemonic Reader)
針對抽取式閱讀理解任務,我們提出了強化助記閱讀器,如圖 3 所示。
▲?圖3. 強化助記閱讀器總體架構示意圖
該模型主要包含兩點改進。第一,我們提出一個重關注機制(re-attention),該機制通過直接訪問歷史注意力來精煉當前注意力的計算,以避免注意力冗余與缺乏的問題。第二,我們在訓練時采用動態-評估的強化學習(dynamic-critic reinforcement learning)方法,該方法總是鼓勵預測一個更被接受的答案來解決傳統強化學習算法中的收斂抑制問題。在 SQuAD1.1 和兩個對抗數據集上的實驗顯示了我們的模型取得了提交時的先進性能。
注意力指導的答案蒸餾方法(Attention-Guided Answer Distillation)?
針對當前閱讀理解集成模型效率低下的問題,我們提出了注意力-指導的答案蒸餾方法來進行閱讀理解模型壓縮,如圖 4 所示。
▲?圖4. 注意力指導的答案蒸餾總體示意圖
我們發現在使用標準知識蒸餾過程中存在有偏蒸餾現象,為解決該問題,我們提出答案蒸餾(answer distillation)來懲罰模型對于迷惑答案的預測。為了進一步高效蒸餾中間表示,我們提出注意力蒸餾(attention distillation)來匹配教師與學生之間的注意力分布。在 SQuAD1.1 上的實驗顯示學生單模型相比于教師集成模型只有 0.4% F1 的性能損失,卻獲得了 12 倍的推理加速。學生模型甚至在對抗 SQuAD 和 NarrativeQA 數據集上超過了教師模型性能。
閱讀+驗證架構(Read + Verify Architecture)?
針對面向無答案問題的閱讀理解任務,我們提出了閱讀+驗證架構,如圖 5 所示。
▲?圖5. 閱讀+驗證架構總體示意圖
該系統不僅利用一個神經網絡閱讀器來抽取候選答案,還使用了一個答案驗證器(answer verifier)來判斷預測答案是否被輸入文本所蘊含。此外,我們引入了兩個輔助損失函數(auxiliary losses)來解決傳統方法采用共享歸一化操作時產生的概率互相干擾問題,并且探索了針對答案驗證任務的三種不同網絡結構。在 SQuAD 2.0 數據集上的實驗顯示,我們的系統在提交時取得了先進性能。
檢索-閱讀-重排序網絡(Retrieve-Read-Rerank Network)?
在開放域問答任務中,傳統流水線方法面臨訓練-測試不一致以及重復編碼等問題。為解決這些問題,我們提出了檢索-閱讀-重排序網絡,如圖 6 所示。
▲?圖6. 檢索-閱讀-重排序網絡示意圖
該模型包含一個早期停止的檢索器(early-stopped retriever)、一個遠程監督的閱讀器(distantly-supervised reader)、以及一個跨度級答案重排器(span-level answer reranker)。這些組件被集成到一個統一的神經網絡中以便進行端到端訓練來緩解訓練-測試不一致問題。另外,編碼表示能在多個組件之間被復用以避免重復編碼。在四個開放域問答數據集上的實驗顯示,該模型相比流水線方法性能更優,同時效率更高。
多類型-多跨度網絡(Multi-Type Multi-Span Network)?
針對離散推理閱讀理解任務,當前方法通常面臨答案類型覆蓋不全、無法支持多答案預測以及孤立預測算術表達式等問題。為解決這些問題,我們提出了多類型-多跨度網絡,如圖 7 所示。
▲?圖7. 多類型-多跨度網絡總體示意圖
該模型使用一個多類型答案預測器(multi-type answer predictor)以支持對四種答案類型的預測,采用一個多跨度抽取(multi-span extraction)方法以動態地抽取指定個數的文本跨度,并使用一個算術表達式重排名(arithmetic expression reranking)機制來對若干候選表達式進行排序以進一步確定預測。在 DROP 數據集上的實驗表明,該模型顯著提高了答案類型覆蓋度和多答案預測精度,相比之前方法性能獲得了大幅度提升。
研究展望
機器閱讀理解已經成為自然語言處理領域的熱門研究方向之一。雖然近幾年在該領域的研究進展迅速,但是該領域仍有大量未解決的問題與挑戰亟待研究人員探索。本文在此對未來研究工作提出幾點展望:?
閱讀理解模型的常識推理能力?
當前閱讀理解模型主要關注回答事實類問題(factoid questions),問題答案往往能直接在原文中找到。然而,如何基于常識和背景知識進行推理以獲得答案仍舊是一個巨大的挑戰。為了促進該方向的發展,若干數據集如 CommonsenseQA [3] 和 CosmosQA [4] 相繼被提出。在這些數據集中,機器需要結合常識知識來回答諸如“我可以站在河上的什么地方看水流淌而不濕身?”這樣的問題,因此更具挑戰性。?
閱讀理解模型的可解釋性?
當前的閱讀理解模型往往是一個大的黑盒(black-box)神經網絡,導致的問題是模型可解釋性差。一個好的閱讀理解系統應該不僅能提供最終答案,還要能夠提供做出該預測背后的邏輯。因此,如何推進閱讀理解模型的可解釋性也是未來很有前景的一個研究方向。幸運的是,我們已經看到有若干工作 [5-6] 在朝著這個方向努力。?
開放域問答系統的實時性?
構建一個快速響應的開放域問答系統對于實際部署線上應用至關重要。然而,由于開放域問答需要經歷檢索-閱讀的流水線過程,且需要為每個問題-文檔樣例重新編碼,導致這些系統面臨實時性方面的嚴峻挑戰。雖然當前有工作 [7-8] 通過預先構建問題-無關的段落表示來節約運算開銷,然而這些方法普遍會導致不同程度的性能下降。因此,如何令開放域問答系統達到實時響應同時保持模型性能也是一個重要的研究方向。?
跨語種機器閱讀理解?
雖然當前機器閱讀理解取得了快速的發展,但是大部分工作都是在英語語料下開展的,其他語種因為缺乏足夠的語料而進展緩慢。因此,如何利用源語言如英語來輔助目標語言如中文的訓練就是一個亟待探索的方向。我們已經看到有初步的工作 [9-10] 在該方向上進行探索。
博士學位論文鏈接:
https://github.com/huminghao16/thesis/blob/master/thesis.pdf
Reference
[1]?Hermann K M, Kocisky T, Grefenstette E, et al. Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701.?
[2] Rajpurkar P, Zhang J, Lopyrev K, et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383-2392.?
[3] Talmor A, Herzig J, Lourie N, et al. CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge. NAACL 2019: 4149-4158.?
[4] Huang L, Le Bras R, Bhagavatula C, et al. Cosmos QA: Machine Reading Comprehension with Contextual Commonsense Reasoning. EMNLP-IJCNLP 2019: 2391-2401.?
[5] Gupta N, Lin K, Roth D, et al. Neural Module Networks for Reasoning over Text[J]. arXiv preprint arXiv:1912.04971, 2019.?
[6] Jiang Y, Bansal M. Self-Assembling Modular Networks for Interpretable Multi-Hop Reasoning. EMNLP-IJCNLP 2019: 4464-4474.?
[7] Seo M, Kwiatkowski T, Parikh A, et al. Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension. EMNLP 2018: 559-564.?
[8] Seo M, Lee J, Kwiatkowski T, et al. Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index[J]. arXiv preprint arXiv:1906.05807, 2019.?
[9] Lewis P, O?uz B, Rinott R, et al. Mlqa: Evaluating cross-lingual extractive question answering[J]. arXiv preprint arXiv:1910.07475, 2019.?
[10] Cui Y, Che W, Liu T, et al. Cross-Lingual Machine Reading Comprehension. EMNLP-IJCNLP 2019: 1586-1595.
后記
如果你對機器閱讀理解感興趣,想從事這方面的研究,那么請不要猶豫,趕快聯系我吧。
聯系郵箱:
huminghao16@gmail.com
huminghao09@nudt.edu.cn
點擊以下標題查看更多往期內容:?
從Word2Vec到BERT
萬能的Seq2Seq:基于Seq2Seq的閱讀理解問答
ICLR 2020:從去噪自編碼器到生成模型
訓練技巧 | NLP中的對抗訓練 + PyTorch實現
后BERT時代的那些NLP預訓練模型
從三大頂會論文看百變Self-Attention
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的博士学位论文 | 机器阅读理解与文本问答技术研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云闪付黑号不出优惠怎么办
- 下一篇: NeurIPS 2019 开源论文 |