COMMONSENSEQA: A Question Answering Challenge Targeting Commonsense Knowledge
?
題目與摘要
本文針對什么任務?任務簡要介紹下。
創建問答數據集,基于知識圖譜
本文發現了什么問題?該文大體是怎么解決的?解決得如何?
以往的問答都是針對給定文字或者段落,提出問題,選擇答案。回答問題所需的廣泛知識背景(段落未給出)比較少。
基于CONCEPTNET創建了COMMONSESENSEQA數據集。在CONCEPTNET中抽取具有相同語義關系的source concept和target concept。以source為基礎編寫,target作為答案,編寫單項選擇題。希望workers可以利用到以前的知識。創建了12,247個問題。
acc baseline 56%,但是距離人類標準89%還有很大差距。
解釋下題目。題目起得如何?能概括內容并吸引人嗎?
題目簡單明了,概括了整篇文章內容。
介紹
這個任務以往是如何解決的?作者沿著哪條路徑繼續研究的?為什么?
以往大部分是在給定文本中尋找問題答案,常識需求特別少。
SWAG給定事件的描述,推測后續的事件發展。但是在未標注的語料上就可以很好的訓練,所以SWAG的水平已經達到人類。
VCR,看圖回答問題:需要更廣的常識。
目前工作存在什么問題?為什么?你覺得可能還存在什么其他問題?為什么?
目前的常識研究只觸及表面。需要研究模型到底學習到了什么,以及還有什么缺陷。
常識的劃分還不夠細,CONCEPT與CONCEPT之間的relation對應到語言,還是有問題。一些語義規則是否能很好的融入到模型中,或者人類的語言規則與機器學習到的是否一致?
該文準備如何解決這個問題?為什么可以這樣解決?你覺得該文解決這個問題的方法如何?為什么?你覺得可以如何/或更好的解決這個問題?為什么?
構建了一個基于CONCEPTNET的常識問答數據集,提出了完整的流程生成問題。
因為依據常識的生成問題中,選取一個source concept 以及3個具有相同語義關系的target concept。從中選取一個正確答案,并填加2個干擾項,并眾包構建問題,篩選。
因為workers需要用到知識來構建問題以區分CONCEPT。
控制變量做的很好。因為這樣構建的單選題的選項比較相似,難度也比較大,更易考驗,模型是否能夠區分。
我覺得應該使用大量的文本,讓模型進行學習總結,單純不給背景知識,僅依靠詞向量所包含的信息以及模型自身能力進行測試可能比較單薄。依據知識圖譜,知識圖譜一些語義關系的成立也應該是有條件的,模型又不知道,什么情況下,這種關系成立。
?
1、測試是否可以理解知識圖譜,那應該對知識圖譜進行讀取,雖然baseline使用了CONCEPTNET node embedding(知識圖譜的節點編碼)
2、閱讀模型大量文本,看是否可以結合知識圖譜進行解答。主要是問題的難度,以及,source 與target在段落中是否具有比較明顯的關系。
本文也嘗試了閱讀理解,在web上選取包含文本與答案的,段落作為背景,進行閱讀理解。
列出該文貢獻(該文自己覺得的)
創建了一個新的QA數據集。包含12,247案例
生成常識問題的新方法從CONCEPTNET
即便在目前最好的NLU模型上,結果對比人類還差了很多。
數據集
構建過程
1、在CONCEPTNET中抽取sub-graph (包含一個source concept 以及3個target concept,并且source 與target的relation相同).
CONCEPT包含32,000,000個(source,relation,target)對。
過濾:
過濾后236,208對(q,r,a)?
2、亞馬遜眾包workers為每個sub-graph 編寫3個問題,一個問題對應一個target concept。并為每個問題添加一個與source-target relation相同的干擾項 concept ,以及一個worker自己添加,認為與問題相關,但人類易忽略掉的干擾項。
3、驗證:2名worker進行問題回答,至少一名回答正確才算是有效,過濾掉15%問題
4、在搜索引擎中搜索問題為每個問題增添文本,以便作為閱讀理解的背景。
谷歌搜索問題加答案,每個答案取前100片段,5個答案,500片段,作為閱讀理解背景。
16242問題中國選取12247個最終問題。一個問題平均$0.33.
數據分析
The top-5 question concepts in COMMONSENSEQA are ‘Person’(3.1%), ‘People’ (2.0%), ‘Human’ (0.7%), ‘Water’(0.5%) and ‘Cat’ (0.5%).(sub-graph要求relation相同,所以relation不同,但是question concept相同,并沒有關系)
統計了問題中relation的分布比,
因為worker標注時,并沒有注明relation是什么,所以worker編寫的問題側重點可能不是relation。例如:“What do audiences clap for?” was generated from the AtLocation relation, but focuses on social conventions instead.
122 worker參與10worker 編寫了85%問題
對問題的第一個詞與第二個詞進行統計
發現:
顯示了問題語言多樣性
commonsense skill:
分析了從問題推理到答案的過程,從開發集隨機選取100個案例進行分析,標注了人類推理答案所需使用的commonsense skill。倆個節點之間的邊是skill。
平均回答一個問題需要使用1.75skill
在100案例中所使用的skill的統計
?
實驗
模型及評價標準介紹
是否是完全預訓練的模型,是否使用了網頁上的搜索文本。
VECSIM:余弦相似度,詞向量平均作為句子表示。
LM1B:1百萬詞大規模上訓練的語言模型。2種方式:將問題與答案拼接、對于"what is"類似問題將答案拼在問題前方。其余的將答案拼在問題后邊。(LSTM和CharCNN,數據量比較小)
QABILINEAR:雙線性模型,question和answer都是詞向量的均值。過softmax
QACOMPARE:語言理解模型
ESIM:語言推理模型
DIDAF++:閱讀理解模型,BIDAF基礎增加self-attention以及elmo。
GPT:“[start] If ... ? [sep] bedroom [end]” 對[end]標簽的隱藏層狀態做分類
Bert:“[CLS] If ... ? [sep] bedroom [sep]” 在bert-large進行。CLS作為隱藏層表示做分類。
數據集劃分方法:
隨機切割,以及將每個sug-graph的3個問題都分布在訓練集,驗證集,測試集(8/1/1).
acc評價標準
SANTITY,將所有干擾項換成隨機選擇
300Glove詞向量
300 Numberbatch CONCEPTNET node? embedding
不隨結果進行訓練
人類隨機抽取100問題進行回答。88.9%
結果分析
1、設置干擾項還是有一定作用,因為SANTITY數值比較低。隨機分割難度比依據question分割難度大。
上半部分是沒有被訓練過的模型。ELMO低于Glove可能是因為,不能反向傳播到表示自身。BIDAF++使用web片段并沒有提升說明文本并沒有攜帶很多信息(zsf:不一定,感覺文本沒找好,或者模型問題)。
BAD CASE:
Bert的錯誤案例分析
對于問題表面就存在線索77.7%
否定詞或者否定意義 42.8
需要使用事實知識38.4
需要細粒度干擾項35.4
存在假設條件,干擾項只滿足一項,23.8
你覺得這篇paper創新與貢獻是(不一定如作者所說)?為什么?
創建了語料,可以更深入研究模型學到了什么知識,在語料的構建過程中,控制變量做的很好,concept需要區分很細,提升了任務難度。一套嚴謹的問題生成方法,不局限于問題生成。bad case分析指明了目前的缺陷。
有沒有進一步深入的價值?為什么?
有,以后需要用到知識,如何更好地表示,并運用到文本中需要探索。這個數據庫可以驗證,我們模型區分概念之間還存在什么問題。
列出該文弱點(或者是你覺得應該是什么問題,他解決的不好,你會如何解決?)
除了使用CONCEPT node embedding對于知識庫還不夠。可以拓展到從文本與知識庫的對應上,怎樣更準確。如果不加背景單純靠詞向量獲取除語料外的知識,恐怕還不夠。或者揭示了目前模型缺陷。
該文對你的啟發是?
嚴謹,詳細。
列出其中有價值的需要進一步閱讀的參考文獻
Robert Speer, Joshua Chin, and Catherine Havasi. 2017. Conceptnet 5.5: An open multilingual graph of general knowledge. In AAAI, pages 4444–4451
?
總結
以上是生活随笔為你收集整理的COMMONSENSEQA: A Question Answering Challenge Targeting Commonsense Knowledge的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 古筝课1
- 下一篇: 蓝牙耳机什么牌子的好又实惠?实惠好用的蓝