DeepMind论文解读:让机器更深入地理解文本
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?80?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @wutong_SEU。DeepMind 提出了一個全新閱讀理解數據集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案范圍的前提下,機器需要從文本中找到最相關的段落并且總結出問題的答案。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關于作者:吳桐,東南大學碩士生,研究方向知識圖譜。
■?論文 | The NarrativeQA Reading Comprehension Challenge
■ 鏈接 | https://www.paperweekly.site/papers/1397
■ 源碼 | https://github.com/deepmind/narrativeqa
論文導讀
相比于信息抽取,閱讀理解任務要求機器能夠整合篇幅較長的上下文信息(如整篇文章)并能夠對事件進行推理。但是現階段的閱讀理解任務仍然能夠以一種投機取巧的方法,利用淺層的語言形態學信息(如問答對之間的文本相似性以及整個文章內的統計詞頻)從問題中直接找到關于答案的蛛絲馬跡。
因此文中提出了一個新的閱讀理解數據集,旨在迫使機器必須通篇閱讀書籍或者電影腳本(遠遠長于一篇文章)才能回答問題。該數據集更側重于發掘機器閱讀理解對于含蓄的敘述的理解能力而不是基于淺層的模式匹配就能夠直接得到答案。
工作動機
人在閱讀的時候往往通讀全篇,并不一定能夠記住書中的每一點細節,但是一定能夠注意到書中有哪些關鍵的實體,并且記住這些實體的關系是怎么樣的。
但是,現在的閱讀理解任務的 benchmark 數據集并不能夠針對這點進行測評,相反,多數問題可以通過 question 和 paragraph 之間的 pattern match 得到答案。
因此 DeepMind 提出了這個新的數據集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案范圍的前提下,機器需要從文本中找到最相關的段落并且總結出問題的答案。該任務十分具有挑戰性。
那么,這個新的數據集理論上應該具備以下特征:?
數據量足夠大,用以滿足神經網絡的訓練需求;
問題和答案最好都是自然語言,且答案最好和多個片段相關或者需要從一大段話中總結出來;
標注者要自己總結答案,從更高的層面理解文章中實體之間的關系,而且最好使用個性化的語言描述而不是從文中直接截取答案;
從判別器的角度上講,最好能夠從答案的流暢性和正確性等兩個角度進行判斷;
數據量需要控制在對于當前既有的模型來說十分困難,但仍處在人可以解決的范圍內。
相關工作
主要提一下三個,SQuAD,MS MARCO 和 SearchQA。
SQuAD 的場景比較局限,給定的來源于維基百科短文本,眾包標注的問題以及從短文本中直接截取的答案。 MS MARCO 提出了更開放的數據集,文本來自搜索引擎,真實的用戶問題以及眾包標注的答案,但是多數答案仍然不可避免的是文本中的原文,多數在 SQuAD 測評中取得不錯成績的模型在 MS MARCO 上仍然能夠取得不俗的結果。SearchQA 的文本來自搜素引擎,問題來自 Jeopardy,對,就是當年 Watson 一戰成名的那個節目,然后統計發現,數據集中 80% 的答案少于兩個單詞,99% 的答案少于 5 個單詞,抽樣調查發現 72% 的問題答案是命名實體。論文作者似乎對這種很不屑,但我想說命名實體是我們這些知識圖譜人的心頭愛啊。
數據集分析
數據集的問答對中主要會出現 Title,Question,Answer,Summary snippet,Story snippet 等字段,其中 title 確定了問答對的出處,即圍繞著哪本書或劇本來進行閱讀。其中相關片段由人工標注得出,但并不建議在訓練中作為標注語料使用,且最終的測試集中不會出現該類片段,需要程序自行設計文本段落的定位方案。?
數據集的主體是小說以及電影劇本,問答集主要根據小說或電影的摘要信息進行提問,如果問答集同時提供了摘要,那么和現在的閱讀理解任務也就沒有什么不同了,但是,在沒有提供摘要及標明相關段落的基礎上,回答此類問題需要程序通讀整部書籍,整理分析所有相關段落以進行閱讀理解。
任務?
提供一組測試任務:分別以摘要和全文作為 context,測試基于答案生成和答案選擇的兩類閱讀理解問題。測試指標包括 Bleu-1,Bleu-4,Rouge—L 以及基于答案排序的 MRR。
Baseline實驗結果
文中提出了三類對比,一將其視為 IR 任務,二直接應用 LSTM 預測后綴詞,三在全書范圍內 IR+BiDAF。 最終的實驗結果證明在全書范圍內的閱讀理解任務上,暫沒有算法能夠取得很好的結果。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
??Tree-CNN:一招解決深度學習中的災難性遺忘
??深度神經網絡模型壓縮和加速都有哪些方法?
??上海交大提出多模態情緒識別框架EmotionMeter
??綜述:圖像風格化算法最全盤點
?5 篇 AAAI 2018 論文看「應答生成」
?深度協同過濾:用神經網絡取代內積建模
▲?戳我查看招募詳情
#作 者 招 募#
讓你的文字被很多很多人看到,喜歡我們不如加入我們
? ? ? ? ? ?
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的DeepMind论文解读:让机器更深入地理解文本的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 上海交大提出多模态框架「EmotionM
- 下一篇: 学好机器学习,这里有想要的一切