AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!
文 | python
前言
GPT-3 等超大規(guī)模預(yù)訓(xùn)練語言模型,在少監(jiān)督任務(wù)(few-shot tasks)上取得了令人矚目的成績。而這篇文章中,AllenAI的研究員提出了大規(guī)模生成式問答模型,MACAW。基于多角度預(yù)訓(xùn)練,MACAW可以用于包括段選取(span selection)、選擇題、生成式問答在內(nèi)的一切問答任務(wù),以及包括問題生成、選項生成、解釋生成等在內(nèi)的多種問答相關(guān)任務(wù)。MACAW在ARC、ARC-DA等多個問答基準(zhǔn)上取得了業(yè)界最好的成績,并且只用了GPT-3 十六分之一的參數(shù)規(guī)模,就在無監(jiān)督問答數(shù)據(jù)集 Challenge300 上,相較GPT-3取得了10%的絕對提升。
論文題目:
General-Purpose Question-Answering with MACAW
論文鏈接:
https://arxiv.org/abs/2109.02593
項目地址:
https://github.com/allenai/macaw
概覽
MACAW(Multi-Angle q(C)uestion-AnsWering),字面含義指一種多角度問答模型。在這篇文章中,作者擴(kuò)展了之前自己在UnifiedQA[1] 中提出了統(tǒng)一問答框架,將不同的問答任務(wù)形式進(jìn)一步擴(kuò)展到不同的問答相關(guān)任務(wù),從而實(shí)現(xiàn)一種多角度的預(yù)訓(xùn)練的方式,提升模型的通用性的同時,也提升模型的魯棒性。
編者按:這篇文章也可以稱為Unified-UnifiedQA。一方面,這篇文章兩個作者是均為UnifiedQA文章的作者;另一方面,在UnifiedQA中,作者利用預(yù)訓(xùn)練語言模型,將所有生成、抽取、選擇式的問答任務(wù)形式統(tǒng)一,而這篇文章中進(jìn)一步統(tǒng)一了如問題生成、選項生成,回答解釋生成等問答相關(guān)任務(wù)。
具體而言,MACAW基于預(yù)訓(xùn)練的T5模型[2],并通過兩階段精調(diào)得到。在第一階段中,采用包括BoolQ、 NarrativeQA、RACE在內(nèi)的7個問答數(shù)據(jù)集,并通過問題生成、答案生成、選項生成、選項加答案生成等6種不同的任務(wù)范式,讓模型充分地學(xué)到問答相關(guān)的一切技巧。而在第二階段中,采用了兩個標(biāo)注有答案解釋的數(shù)據(jù)集,ARC和ARC-DA,進(jìn)一步引入了8種和解釋相關(guān)的任務(wù)范式,讓模型知其然的同時,也能知其所以然。
MACAW具有以下三點(diǎn)優(yōu)勢:
面向領(lǐng)域外的樣本,MACAW具備出色的無監(jiān)督遷移學(xué)習(xí)能力。在 Challenge300 ?數(shù)據(jù)集上,相較GPT-3取得10%的絕對提升。
MACAW具有“多角度問答能力”,無論是問題生成,還是回答生成,亦或是選項生成,MACAW都能勝任。
MACAW還能生成回答的解釋,體現(xiàn)出知其然亦知其所以然的能力。
MACAW 模型
精調(diào)階段1:會出題的問答模型,才是個好模型
在第一個精調(diào)階段中,作者在7個問答數(shù)據(jù)集上,以6種不同的任務(wù)形式精調(diào)T5。這里選用的數(shù)據(jù)集有答案段選取形式的SQuAD 2.0,有是否類問題BoolQ,有描述類生成式回答的NarrativeQA,有多項選擇題的RACE等等。
為了統(tǒng)一不同的任務(wù)形式,作者以slot的方式約定了任務(wù)的輸入輸出。例如下圖展示的是一個給定問題(questions)和候選選項(mcoptions),讓模型對答案(answer)做出預(yù)測的任務(wù)形式:
在7個數(shù)據(jù)集上,作者根據(jù)數(shù)據(jù)集特點(diǎn),設(shè)計了6種任務(wù)作為第一階段的訓(xùn)練目標(biāo)。如下表所示。其中的符號,Q指問題、C指上下文(即閱讀理解讀的文本),A指答案,M指候選選項(選擇題里才有)。例如QC→A指答案生成,AC→Q指問題生成,QAC→M指給定文章問題和答案的選項生成。可以看到,這里面除了在原本UnifiedQA中就包含的答案生成任務(wù)外,還引入了大量問題生成、選項生成等任務(wù)。 讓模型在學(xué)會解題的同時,也學(xué)會出題。
這里有兩個有意思的點(diǎn)。一方面,任務(wù)模式中可以有多種輸出,而考慮到生成模型自回歸解碼,多種輸出之間的順序關(guān)系是有意義的。比如AC→QM,是先根據(jù)文章和答案,生成問題,再根據(jù)生成的問題,生成候選選項。另一方面,這里的任務(wù)設(shè)計考慮了數(shù)據(jù)特點(diǎn),比如雖然QA→C,即給定問答對,生成閱讀文章,理論上可行。但實(shí)際中,因為問答對中包含的信息過少,文章C中含有大量無關(guān)信息,導(dǎo)致這種任務(wù)沒有太多實(shí)際意義。因此,這里也沒有涉及這種沒有意義的任務(wù)。
在實(shí)際訓(xùn)練過程中,所有數(shù)據(jù)集與所有任務(wù)范式混合在一起進(jìn)行訓(xùn)練。以8的批處理大小,迭代訓(xùn)練了120k步。不同的數(shù)據(jù)集之間進(jìn)行等概率采樣。不同的任務(wù)之間也先驗性的賦給了一個采樣的權(quán)重。畢竟相對來說,答案生成比問題生成更重要一點(diǎn),而這兩者又都明顯比選項生成等任務(wù)更重要。
第一階段精調(diào)的模型,在精調(diào)任務(wù)上的表現(xiàn)如下表所示。其中,NarrativeQA以ROUGE-L作評價,SQuAD2.0以F1作評價,其余任務(wù)均以精度為評價指標(biāo)??梢钥吹?#xff0c;引入多種不同的任務(wù)范式之后,模型在問答任務(wù)上的表現(xiàn)與單一問答任務(wù)的結(jié)果比是相當(dāng)?shù)?#xff0c;但具有了解決更多不同類型任務(wù)的能力。
編者按:實(shí)際上,由于訓(xùn)練時采用多任務(wù)混合訓(xùn)練,測試時使用單一任務(wù)測試,這一差異肯定會帶來表現(xiàn)下降。個人感覺,如果在這一階段訓(xùn)練后再引入單一問答任務(wù)的精調(diào),或使用課程學(xué)習(xí)的方式,將這一階段預(yù)訓(xùn)練逐漸轉(zhuǎn)化為純問答形式,在問答任務(wù)上的表現(xiàn)會更好。不過,這里作者主要是做一個初步的預(yù)訓(xùn)練,而非為了刷問答任務(wù)的指標(biāo),因此沒有做這些嘗試。
精調(diào)階段2:成熟的問答模型,還能自我解釋
作者進(jìn)一步引入了解釋類任務(wù),讓模型知其然的同時還能夠知其所以然,使無監(jiān)督問答任務(wù)上的回答更合理。作者使用了 WorldTree V2 explanation bank[3]中的幾十標(biāo)注,覆蓋65% 的 ARC 數(shù)據(jù)集和 50% 的 ARC-DA 數(shù)據(jù)集。
這里的“無監(jiān)督”,其實(shí)也可以理解成是領(lǐng)域外數(shù)據(jù),即沒有和測試集同分布的訓(xùn)練數(shù)據(jù),但有大量形式類似的相關(guān)任務(wù)可以用于訓(xùn)練。
任務(wù)形式如上圖所示,其中E代表解釋(explanation)。除了部分在第一階段也采用的任務(wù)外,作者引入了8個和解釋相關(guān)的任務(wù),例如QM→AE,即給定問題和選項,生成答案后再生成解釋,AQC→E,即給定文本、問題和答案,生成解釋,E→QA,給定解釋,生成問題并作出回答。第二階段精調(diào)中,作者采用和第一階段類似的訓(xùn)練策略,在第一階段的結(jié)果上進(jìn)一步訓(xùn)練了6k步。部分示例如下圖所示。
實(shí)驗分析
ARC數(shù)據(jù)集
作者在ARC數(shù)據(jù)集上檢測了MACAW的表現(xiàn),如下表所示。MACAW在ARC、ARC-Easy和ARC- DA 上均達(dá)到了業(yè)界最優(yōu)的表現(xiàn)[4]。不過,但監(jiān)督學(xué)習(xí)范式下,在生成答案之后引入解釋的生成(即QM→AE),并沒有讓模型表現(xiàn)有明顯的提升。作者分析表示,引入解釋生成后,答案生成時條件依賴于生成的解釋,會使得生成答案的確定性更高。而不夠完美的解釋可能會反而強(qiáng)化錯誤答案的概率。
Challenge300數(shù)據(jù)集
Challenge300 是一個手工構(gòu)建的問答評價數(shù)據(jù)集,由300道問題組成,涵蓋了22類不同的考察方面。在這里作為一個無監(jiān)督(領(lǐng)域外)的評價基準(zhǔn)。因這個數(shù)據(jù)集答案較為靈活,規(guī)模較小,評價時以人工評價為準(zhǔn)。作者對比了MACAW與GPT-3等主流無監(jiān)督問答模型,實(shí)驗結(jié)果如下表所示??梢钥吹?#xff0c;和GPT-3相比,MACAW也可以取得10%的絕對提升,即使MACAW的11B的參數(shù)規(guī)模知識GPT-3 的175B的參數(shù)規(guī)模的十六分之一。
在不同類型的問題上的表現(xiàn)對比如上圖所示。可以看出,MACAW在很多問題類型上均表現(xiàn)出了明顯的優(yōu)勢。例如:
實(shí)體替換類問題(Entity Substitution):挖掘?qū)嶓w關(guān)鍵屬性并找出可替代實(shí)體。
在條件假設(shè)下進(jìn)行推理(Hypotheticals):
一些屬性相關(guān)的暗指(Meta-reasoning)
不過,MACAW也在某些問題上表現(xiàn)不佳,比如:
數(shù)學(xué)題(Non-trivial Arithmetic):其實(shí)在“5+7=?”這種簡單的數(shù)學(xué)題上,MACAW的表現(xiàn)還是不錯的。但數(shù)大一些之后就不行了。
物體追蹤(Entity Tracking and State Changes):這類問題在之前的bAbI數(shù)據(jù)集上比較常見。
空間推理(Spatial Reasoning):
總結(jié)
這篇文章提出的MACAW,在預(yù)訓(xùn)練模型T5的基礎(chǔ)上,整合了包括段選取(span selection)、選擇題、生成式問答在內(nèi)的一切問答范式,以及包括問題生成、選項生成、解釋生成等在內(nèi)的多種問答相關(guān)任務(wù)做聯(lián)合精調(diào)。MACAW在多個問答基準(zhǔn)上取得了業(yè)界最好的成績,并只用了GPT-3 十六分之一的參數(shù)規(guī)模,就在無監(jiān)督問答數(shù)據(jù)集 Challenge300 上,相較GPT-3取得了10%的絕對提升,展現(xiàn)了強(qiáng)大的無監(jiān)督學(xué)習(xí)的能力。
多數(shù)據(jù)集多任務(wù)整合一直是問答任務(wù)的一大研究趨勢。2016年SQuAD提出以來,大量的問答數(shù)據(jù)集涌現(xiàn),為多數(shù)據(jù)集整合提供了有力的數(shù)據(jù)支撐。受到Dual learning的啟發(fā),MSRA的段楠老師等人在2017年EMNLP上提出聯(lián)合問題生成與問答任務(wù)[5],展現(xiàn)出多任務(wù)整合有利于問答表現(xiàn)。而2018年提出的BERT,因其適用于多種任務(wù)多種形式的包容性,給這一趨勢提供了無限可能。近期的工作包括:MultiQA (ACL 2019) [6]整合6種大規(guī)模段選取(span selection)任務(wù),并探討了對小規(guī)模任務(wù)的遷移能力;UnifiedQA (EMNLP Findings 2020),整合了多種不同的問答任務(wù)形式;以及這篇工作,進(jìn)一步整合了問答任務(wù)及問題生成、選項生成、解釋生成等更多的問答相關(guān)任務(wù)形式。問答數(shù)據(jù)集本身可能才是限制問答任務(wù)難以走向?qū)嶋H應(yīng)用的一大難題,畢竟在業(yè)務(wù)場景中用戶的問題千奇百怪,很難有足夠的同分布數(shù)據(jù)用以訓(xùn)練。借助大規(guī)模預(yù)訓(xùn)練語言模型強(qiáng)大的通用性,與prompt方法的靈活性,更多數(shù)據(jù)、知識與任務(wù)形式可以整合在一起,有助于打破問答任務(wù)應(yīng)用的壁壘。
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] Khashabi, Daniel, et al. "UnifiedQA: Crossing Format Boundaries With a Single QA System." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020.
[2] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21.140 (2020): 1-67.
[3] Jansen, Peter, et al. "WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.
[4] 數(shù)據(jù)集leaderboard:https://leaderboard.allenai.org/arc/submissions/public ,https://leaderboard.allenai.org/arceasy/submissions/public,https://leaderboard.allenai.org/genie-arcda/submissions/publicarcda/submissions/public
[5] Duan, Nan, et al. "Question generation for question answering." Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.
[6] Talmor, Alon, and Jonathan Berant. "MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
總結(jié)
以上是生活随笔為你收集整理的AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 预训练语言模型真的是世界模型?
- 下一篇: 搞不懂,为啥现在什么公司都在考算法???