30万奖金海华AI挑战赛 | 用机器挑战中文阅读理解
摘要
2021 海華 AI 挑戰賽已經正式開賽,總獎金 30 萬元(技術組 21 萬元,中學組 9 萬元)。
本次比賽的主題為機器閱讀理解,數據來自小學和中學語文考試中的語文閱讀理解試題。其中,還包括了部分古文閱讀理解。本次比賽為古文部分的閱讀理解專門設置了獎金。
本次比賽由中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合主辦。獲獎選手不僅可獲得相應獎金,還可獲海華研究院院長姚期智院士簽名的獲獎證書。
在讀中學小學的時候,我們都沒少為語文考試中的閱讀理解題目傷腦筋。這些題目在考驗我們對語言是否有準確、深入的理解。所以,這樣的題目也是我們測試計算機模型的重要手段。因此,自自然語言處理出現之時起,機器閱讀理解也就成了最重要的任務之一。和面向學生的語文考試類似,這項任務要求機器閱讀并理解一段或一篇文字,并在此基礎上,回答與文字相關的問題。
然而,直到今天,機器閱讀理解仍然是整個人工智能領域最富挑戰的課題之一,主要的難點包括自然語言的多義性、創新性,以及理解自然語言所需的人類常識、知識和推理能力等。
同時,機器閱讀理解作為自然語言處理和人工智能領域的前沿課題,具有極強的應用價值:該技術可以幫助人類從大量文本中快速聚焦相關信息,降低人工信息獲取成本,在文本問答、信息抽取、對話系統等領域已有廣泛應用。
為了進一步推動機器閱讀理解的發展,今年,中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合推出了《2021 海華AI挑戰賽·中文閱讀理解》大賽。
本次大賽由中關村海華信息技術前沿研究院與清華大學交叉信息研究院聯合主辦,技術組數據集來自中學語文考試的閱讀理解題庫,共包含約 8,000 篇閱讀理解文章(帶答案的訓練集約 6000 篇,初賽測試集約 1000 篇,復賽測試集約 1000 篇),其中古文占比約為 25%,現代文占比約為 75%,數據格式為“json”。每條數據都包括 1 篇文章(content),至少 1 個問題(question)和 2 - 4 個候選選項(choices)。中學組賽道的數據集來自小學語文考試的閱讀理解題庫。每條數據都包括 1 篇文章(content),至少 1 個問題(question)和 2 - 4 個候選選項(choices)。比賽模型需要根據文章和問題,選擇正確的選項。
相較于英文,中文閱讀理解有著更多的歧義性和多義性,然而璀璨的中華文明得以綿延數千年,離不開每一個時代里努力鉆研、堅守傳承的人,這也正是本次大賽的魅力與挑戰:讓機器讀懂文字,讓機器學習文明。
更多比賽信息,請掃碼、復制鏈接或點擊文末的“原文鏈接”訪問:(https://www.biendata.xyz/competition/haihua_2021/)
機器閱讀理解任務與數據集回顧
為了推動閱讀理解問題的解決,自然語言理解領域的研究人員構建了大量相關的數據集。因此我們看多有越來越多新型的閱讀理解數據集不斷涌現。但總體而言,閱讀理解數據集仍可以進行大致的分類。例如,按照答案格式分為以下幾類:1)選擇,2)完形填空,3)自由文本(free text),4)文本片段(span);按照語料素材可以分為:1)文章,2)多模態(如需要理解圖片的數據集)。但這些分類標準其實較為模糊,不同類別之間存在交集,有的數據集會同時屬于多種類別。[1]
Ricardson 等人在 2013 年發表的 MCTest 是較早的閱讀理解數據集。[2] 它的總體形式和英語考試中的閱讀理解單項選擇題很像,一段用于提供信息的文本,加上 4 道包含 1 個正確選項和 3 個合理錯誤選項的問題。
為了保證閱讀的過程不需要過多的外部知識,MCTest 的標注人員(他們由作者在亞馬遜的眾包標注平臺 Amazon Mechanical Turk 上招募而來)被要求撰寫文檔主體時,要注意文檔必須確保是能被兒童理解的故事內容。
MCTest 一共包括 660 個故事,2640 個問題。同時,論文作者還提出了幾種基于規則或大量手工特征的方法,模型回答準確率在 60% 到 70%之間。MCTest 為后續的閱讀理解數據集指明了方向,但因為數據量過少,所以難以適應數據驅動的深度學習自然語言處理技術。
為了增加數據量,DeepMind 和牛津大學于兩年后提出了 CNN/Daily Mail 數據集。[3] 為了節約標注成本,數據集的作者將新聞摘要中的某些詞匯換成空行,需要模型預測。因此與 MCTest 的單選格式不同,CNN/Daily Mail 的格式為完形填空。最終的數據集包括了 312,085 篇文章和 1,384,887 個問題。
?
雖然 CNN/Daily Mail 數據集規模很大,但很快就被發現難度較小,很容易做到高分。例如,2016 年,陳丹琦和 Chris Manning 等人發現數據集中大約有 25% 的問題人類很難回答,同時模型可以較為輕松地提升到 70%,意味著模型性能已經飽和。[4]
為了進一步推動機器閱讀領域的發展,斯坦福大學的 Percy Liang 實驗室于 2016 年發布了 SQuAD 數據集 [5],2018 年又發布了 SQuAD 2.0 [6]。SQuAD 2.0 在 SQuAD 的基礎上添加了一些不可回答的問題。到目前為止,SQuAD 和 SQuAD 2.0 都是機器閱讀理解領域最重要的數據集之一,同時也引發了一波搭建閱讀理解數據集的熱潮。
?
在題型方面,SQuAD 既不是多項選擇也不是完形填空,而是要求模型從原文中抽取一個或幾個連續詞組成的文字片段作為問題答案。
截圖來自參考文獻[5]
SQuAD 的原始語料來自維基百科,包括 107,785 個問題。數據量和難度相較于 MCTest 都有很大的提升。
在日常應用中,模型理解的對象不僅僅是文章和段落,還會包括對話。2018 年,斯坦福大學的 Chris Manning 實驗室和 Percy Liang 實驗室同時推出了兩個對話閱讀理解數據集 CoQA[7] 和 QuAC[8]。
區別于答案是原文片段的 SQuAD 數據集,斯坦福大學在 2018 年新推出的數據集 CoQA 則有了更深刻地改變。作為一個包含了 8,000 組對話和 127,000 個帶答案問題的對話型問答數據集,它橫跨 7 個不同領域,能夠很好地訓練模型的泛化能力。
截圖來自參考文獻[7]
這個數據集是多輪問答的形式,在問答上需要聯系上下文,有語義上的理解。
跟 CoQA 同步推出的 QuAC 也是一個同樣類型的問答型數據集,但它與 CoQA 最大的區別在于其標注人員中的提問者是看不到文本的,同時其數據來源也局限在維基百科中。
除了自由文本型數據集以外,選擇型數據集也有了很大的發展。2017 年,卡內基梅隆大學推出了一個包含 28,000 個文章和 100,000 問題的大規模閱讀理解數據集 RACE[9]。它取材來源于中學閱讀理解題,數據集形式也類似于中學閱讀理解選擇題。RACE 數據集的難點在于其答案并非原文片段,因此不能通過簡單抽取得到正確答案,而必須深入閱讀理解原文,基于原文的語義進行推理,從而得出答案。
和 RACE 有異曲同工之妙,本次比賽推出的數據集,同樣是來自于教育系統中的閱讀理解題庫。
具體而言,該比賽數據集中,每條數據都包括一篇文章,至少一個問題和多個候選選項。參賽選手需要搭建模型,從候選選項中選出正確的一個。需要再次強調的是,和 RACE 不同的是,本次比賽的數據集采用中文,中文閱讀理解本身所包含的更多歧義性和多義性,也將帶來更多挑戰。
單選閱讀理解技術回顧
本次比賽采用的是單選閱讀理解數據,針對這種類型的閱讀理解,自然語言處理領域的學者已經有了諸多進展。
早期的閱讀理解技術主要依賴信息檢索技術,也就是試圖在原文中匹配問題的關鍵詞,找到相關語句。包括 Richardson 等人在 MCTest 上提出的滑動窗口算法(sliding window)和基于距離的滑動窗口算法。這種方法是基于窗口內的詞來測量問題、候選選項和文章的匹配程度。[2]
不過,因為閱讀理解很多時候涉及到推理、背景知識、語義理解等,單純依靠問題和文章的文字匹配往往難以找到答案。
成功改變了這種情況的,是近年來大火的深度學習技術。
截圖來自參考文獻[14]
一般來說,基于深度學習的機器閱讀理解模型,其架構主要包括編碼層、交互層和輸出層三部分。在輸入端,文章和問題需要編碼成保留語義的文本表示,然后輸入模型,這部分為編碼層;隨后,模型需要在文章和問題之間找到聯系,即文章中的哪一部分是應該重點關注的對象,這部分叫做交互層,模型可以綜合考慮文章和問題的語義相關性;最后,模型要根據在交互層建立的文章和問題的語義聯系完成答案預測。這一模塊被稱為輸出層。根據問題類型的不同,輸出層的具體形式和損失函數也不相同。
其中,在交互層的部分,一種名為“注意力機制”的新方法(也是 Transformor 架構的核心),直接助力 BERT 這樣的預訓練模型誕生。
注意力機制的重要思想,是高效地計算出輸入數據對輸出數據的貢獻大小。類似于人類注意到某種事物的存在(輸入數據)時,會有選擇地分配注意力,例如把注意力放在某些能夠把幫助人類認知該事物(輸出數據)的特質上。
由于注意力機制的存在,BERT 一度稱霸我們上文所提到的權威評測 SQUAD,占領了該評測的前 20 名。
除了 BERT,還有其他基于注意力機制的創新模型曾在 SQUAD 上大放異彩。Match-LSTM& Answer Pointer 模型實典范之一[10],它結合了 Bi-LSTM ?和 pointer-network ,借助單向注意力機制對問題和文章進行一維語義匹配。
與 Match-LSTM& Answer Pointer 模型同年問世的 BiDAF,也是圍繞注意力機制進行創新,它在在文章和問題的交互中引入了雙向注意力機制進行二維匹配,因此能更好地融合問題和文章信息。[11]在這之后,“接力棒”仍在持續,包括2017年微軟研究院提出 R-NET 模型(引入了自注意力機制(Self-Attention),將感受域從局部擴展到全文章)[12]、2018年谷歌提出的QA-Net(集合多層卷積和自注意力機制,對文章和問題進行局部和全局交互)[13]等等。
當然,隨著 NLP 技術的迅猛發展,上述模型的地位也在發生微妙的變化。比如在SQUAD 上,BERT 已被 ELECTRA、AIBERT 之類的“后來者”所挑戰甚至取代,這是后話,在此不再贅述。如果你想了解更多關于這類模型的架構知識,可以參考《一文讀懂機器閱讀理解》[14]
選擇型中文閱讀理解比賽
本次比賽使用的是中文閱讀理解數據。目前,已經出現了很多研究和比賽模型用于解決中文的閱讀理解問題。這里我們分享一個類似本次海華 AI 挑戰賽題型的 2020 法研杯(司法考試賽道),冠軍隊伍擎盾數據的模型和方法[15],以饗讀者。
2020 年的法研杯(司法考試賽道)的數據來自于國家司法考試,均為選擇題。對于每個問題,需要給定這個題的答案,即 A,B,C,D中的哪幾項是正確的。擎盾數據團隊沒有提出太多新方法,而是選擇了更穩健的做法 — 簡單修改官方論文中的模型。
截圖來自參考文獻[15]
在官方模型的基礎上,擎盾數據團隊將其中的采樣層改成了 concat。從結構而言,模型分為兩個部分,第一個部分是找到每一道題所參考的依據,也就是這道題目涉及的知識點具體在原文的哪些片段。第二個部分是將原文、問題和選項輸入從而得到答案。
而本次海華 AI 挑戰賽,同樣是選擇型賽題,數據來自中高考語文閱讀理解題庫。每條數據都包括一篇文章,至少一個問題和多個候選選項。參賽選手需要搭建模型,從候選選項中選出正確的一個。
下面給大家看一條數據樣例:
本次大賽同樣向全體參賽者提供 baseline,baseline 模型分享會在 3 月 4 日晚 7 點準時在 biendata B站直播間(https://space.bilibili.com/487467301?from=search&seid=18365426173288838974)開始,歡迎來看!
參考文獻
[1]將57個數據集分門別類,梳理機器閱讀理解任務的挑戰與機遇
https://mp.weixin.qq.com/s?__biz=MzU2ODY2MTUwNQ==&mid=2247508333&idx=1&sn=906e2a77564b2caf085c106902f3c0a2&chksm=fc886203cbffeb1594fa19e93abe88968b1c63baf59af2260020df1aaefa5de81e02604104a9&token=1597614031&lang=zh_CN#rd
[2]MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text
https://www.microsoft.com/en-us/research/publication/mctest-challenge-dataset-open-domain-machine-comprehension-text/
[3]Teaching Machines to Read and Comprehend,https://arxiv.org/pdf/1506.03340.pdf
[4] A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task,https://www.aclweb.org/anthology/P16-1223/
[5] SQuAD: 100,000+ Questions for Machine Comprehension of Text
, https://rajpurkar.github.io/SQuAD-explorer/
[6] Know What You Don't Know: Unanswerable Questions for SQuAD
, https://rajpurkar.github.io/SQuAD-explorer/
[7] A Conversational Question Answering Challenge,https://stanfordnlp.github.io/coqa/
[8]?Question Answering in Context,https://quac.ai/
[9]?RACE Dataset,https://www.cs.cmu.edu/~glai1/data/race/
[10] Machine Comprehension Using Match-LSTM and Answer Pointer,https://arxiv.org/abs/1608.07905
[11] Bidirectional attention flow for machine comprehension,https://arxiv.org/abs/1611.01603
[12] Gated self-matching networks for reading comprehension and question answering,https://www.aclweb.org/anthology/P17-1018/
[13] Qanet: Combining local convolution with global self-attention for reading comprehension,https://arxiv.org/abs/1804.09541
[14] 一文讀懂機器閱讀理解,https://www.jiqizhixin.com/articles/2020-04-30-3
[15] 第三屆法研杯司法人工智能挑戰賽司法考試前兩名隊伍分享,https://blog.csdn.net/herosunly/article/details/111618860
報名參加 2021 海華 AI 挑戰賽請點擊下方閱讀原文↓
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的30万奖金海华AI挑战赛 | 用机器挑战中文阅读理解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Transformer变体层出不穷,它们
- 下一篇: 无法启动电脑的启动盘怎么做 无法启动电脑