AAAI 2022上那些值得关注的NLP论文
?PaperWeekly 原創(chuàng) · 作者 |?王馨月
單位 |?四川大學(xué)
研究方向?|?自然語(yǔ)言處理
縮略詞
1.1 SimCLAD
論文標(biāo)題:
SimCLAD: A Simple Framework for Contrastive Learning of Acronym Disambiguation
論文鏈接:
https://arxiv.org/abs/2111.14306
這篇文章的作者針對(duì)縮略詞消歧問(wèn)題,提出了一個(gè)簡(jiǎn)單的縮略詞消歧對(duì)比學(xué)習(xí)框架(Simple framework for Contrastive Learning of Acronym Disambiguation , SimCLAD)。具體來(lái)說(shuō)是一種持續(xù)對(duì)比預(yù)訓(xùn)練方法,通過(guò)學(xué)習(xí)真實(shí)含義和歧義短語(yǔ)之間的短語(yǔ)級(jí)對(duì)比分布來(lái)增強(qiáng)預(yù)訓(xùn)練模型的泛化能力。
上圖是首字母消歧的示例,目標(biāo)是預(yù)測(cè)字典中長(zhǎng)形式縮寫(xiě)詞的正確含義。一個(gè)好的預(yù)測(cè)不僅應(yīng)該理解上下文的含 義,還應(yīng)該區(qū)分歧義短語(yǔ)的含義。
上圖是本文提出框架的示意圖。框架包含兩個(gè)域預(yù)訓(xùn)練模型(學(xué)生和教師),它們使用相同的參數(shù)進(jìn)行初始化。在預(yù)訓(xùn)練階段,教師的參數(shù)被凍結(jié),為學(xué)生模型提供編碼表示。此外,教師支持學(xué)生模型的 MLM 格式良好的原始目標(biāo)(即 MLM 與 NSP)。
作者有意 mask 了原始的短形式首字母縮寫(xiě)詞()以在教師模型中區(qū)分模糊的長(zhǎng)形式縮略詞(),其中符號(hào) + 和 - 是正樣本和負(fù)樣本。在學(xué)生模型的預(yù)訓(xùn)練過(guò)程中采用了對(duì)比損失。具體來(lái)說(shuō),就是通過(guò)將學(xué)生模型的輸入句子中的縮寫(xiě)詞(即 CL)與教師產(chǎn)生的“正確含義”進(jìn)行屏蔽而不屏蔽相應(yīng)的短語(yǔ)來(lái)獲得的。為了獲得字典中“reference”的表示(虛線框),我們通過(guò)對(duì)標(biāo)記的嵌入進(jìn)行平均來(lái)執(zhí)行短語(yǔ)平均方法(即對(duì)比學(xué)習(xí))。
同時(shí),我們讓正負(fù)樣本的表示距離保持距離,以增強(qiáng)模型區(qū)分混淆樣本的能力。其中學(xué)生學(xué)習(xí)的 masked 縮略詞更接近教師產(chǎn)生的真實(shí)含義(實(shí)線箭頭),而遠(yuǎn)離字典中其他令人困惑的短語(yǔ)(虛線箭頭)。
短語(yǔ)級(jí)對(duì)比預(yù)訓(xùn)練 loss 計(jì)算如下:
其中 是指示函數(shù),當(dāng) 是 masked 縮略詞并且是相應(yīng)長(zhǎng)格式 的縮寫(xiě)時(shí) 。
在微調(diào)的過(guò)程中,作者連接輸入句子的最終隱藏狀態(tài) 和可能的短語(yǔ)表示 以獲得兩個(gè)分類和對(duì)比學(xué)習(xí)的特征 ,在預(yù)訓(xùn)練模型上添加一個(gè)非線性投影層,用于獲得表示。最后,以多任務(wù)的方式進(jìn)行微調(diào),并對(duì)兩個(gè)分類損失和對(duì)比損失進(jìn)行加權(quán)平均:
實(shí)驗(yàn)結(jié)果如下圖,可以看出,預(yù)訓(xùn)練模型的性能優(yōu)于基于規(guī)則的方法,因?yàn)榛谝?guī)則的方法由于泛化性差,很難從字典中混淆的首字母縮寫(xiě)詞選項(xiàng)中挑選出正確的短語(yǔ)。SciBERT 在三個(gè)分?jǐn)?shù)中都擊敗了 RoBERTa,這表明特定領(lǐng)域的預(yù)訓(xùn)練對(duì)于科學(xué)文檔的理解具有重要意義。
科學(xué)領(lǐng)域預(yù)訓(xùn)練模型可以捕獲令人困惑的首字母縮寫(xiě)詞的深層表示。hdBERT 融合了不同類型的隱藏特征,以在二進(jìn)制分類中獲得更好的泛化,從而在此任務(wù)中表現(xiàn)良好。BERT-MT 的結(jié)果表明,確實(shí)有很多有用的技巧可以幫助模型增強(qiáng)魯棒性的能力。
值得注意的是,所提出的方法在三個(gè)分?jǐn)?shù)上都優(yōu)于其他基線,這表明具有持續(xù)對(duì)比預(yù)訓(xùn)練的預(yù)訓(xùn)練模型可以進(jìn)一步提高模型表示首字母縮略詞的能力。集成方法可以進(jìn)一步提高最終結(jié)果的多樣性,從而在測(cè)試集中獲得最佳性能。
1.2 PSG
論文標(biāo)題:
PSG: Prompt-based Sequence Generation for Acronym Extraction
論文鏈接:
https://arxiv.org/abs/2111.14301
縮略詞提取任務(wù)(如下圖)是指從文檔中找到首字母縮寫(xiě)詞(短格式)及其含義(長(zhǎng)格式),這對(duì)于科學(xué)文檔理解任務(wù)很重要。針對(duì)這一任務(wù),這篇文章的作者提出了一種基于 prompt 的序列生成(Prompt-based Sequence Generation, PSG)方法。具體來(lái)說(shuō),作者設(shè)計(jì)了一個(gè)模板,用于 prompting 提取的具有自回歸的首字母縮略詞文本。并設(shè)計(jì)位置提取算法用于提取生成答案的位置。在低資源環(huán)境中提取越南語(yǔ)和波斯語(yǔ)的縮略詞的結(jié)果表明,本文所提出的方法優(yōu)于目前的 SOTA 方法。
作者將首字母縮略詞提取任務(wù)視為序列生成問(wèn)題。給定文本的一系列 token ,任務(wù)旨在從原始文本中找到相應(yīng)的位置。標(biāo)簽表示短形式 (即首字母縮寫(xiě)詞)和長(zhǎng)形式 (即短語(yǔ)),則任務(wù)為:
上圖是模型架構(gòu)示意圖。作者使用 MT5 模型作為生成序列的 backbone,首先使用手動(dòng)設(shè)計(jì)的 prompt 輸入文本,使用 MT5 tokenizer 進(jìn)行標(biāo)記,然后通過(guò)自注意機(jī)制使用 encoder 對(duì)輸入進(jìn)行編碼。最后,輸出由 decoder 通過(guò)自回歸產(chǎn)生。輸出包含未使用的 token ,是用于 prompt tuning 的占位符,從而進(jìn)一步利用來(lái)自預(yù)訓(xùn)練模型的外部知識(shí)。
手動(dòng)設(shè)計(jì) prompt,以從預(yù)訓(xùn)練模型中提取相關(guān)知識(shí)進(jìn)行序列生成,表示“首字母縮略詞及其含義是:”。未使用的 token 被用作占位符來(lái)控制輸出,形成模板進(jìn)行提示調(diào)優(yōu),其中 <extra_id_1> 表示短格式的分隔符,<extra_id_2> 表示長(zhǎng)格式的分隔符,<extra_id_3> 表示長(zhǎng)格式和短格式的首字母縮寫(xiě)詞之間的分隔符。<extra_id_4> 表示沒(méi)有出現(xiàn)短格式的首字母縮寫(xiě)詞,<extra_id_5> 表示沒(méi)有出現(xiàn)長(zhǎng)格式的首字母縮寫(xiě)詞。
序列生成的 loss 自回歸執(zhí)行,如下,其中 是上下文編碼, 是 decoder 生成的序列中的單詞, 是模型參數(shù)。
提取位置作者使用了一種貪心遍歷搜索的方法,采用從左到右的正則方法來(lái)尋找對(duì)應(yīng)的位置邊界。同時(shí),需要通過(guò)檢測(cè)邊界邊距來(lái)確保提取的輸出沒(méi)有重疊,使得提取的位置相互獨(dú)立。算法如下:
作者在越南語(yǔ)和波斯語(yǔ)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果如下:
1.3 ADBCMM
論文標(biāo)題:
ADBCMM: Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing
論文鏈接:
https://arxiv.org/abs/2112.08991
項(xiàng)目地址:
https://github.com/WENGSYX/ADBCMM
這篇文章針對(duì)首字母消歧問(wèn)題提出了一種稱為 ADBCMM 的方法,為了提升低資源數(shù)據(jù)集的性能,作者基于課程學(xué)習(xí)的方法,在預(yù)訓(xùn)練模型的基礎(chǔ)上,首先對(duì)四個(gè)不同語(yǔ)言的數(shù)據(jù)集混合訓(xùn)練,之后再在相關(guān)的數(shù)據(jù)集上“微微調(diào)”。在? SDU@AAAI- 22 - Shared Task 2: Acronym Disambiguation 中,作者所提出的方法在法語(yǔ)和西班牙語(yǔ)中獲得第一名。
上圖是英語(yǔ)與法語(yǔ)的縮略詞對(duì)比,英語(yǔ)中的縮略詞一般是由單詞首字母構(gòu)成,而法語(yǔ)中則不完全是這樣。
如上圖所示,作者使用多項(xiàng)選擇模型框架,多項(xiàng)選擇模型是指在 BERT 模型的最終輸出中添加分類器,每個(gè)句子只有一個(gè)輸出值來(lái)表示這個(gè)選項(xiàng)的概率,每批將在訓(xùn)練期間輸入同一集合中的所有可能選項(xiàng)。對(duì)于每一條短文,我們逐一將“長(zhǎng)句-[SEP]-縮略詞-[SEP]-短文”作為模型的輸出,讓模型選擇最有可能的一條。
如果字典中的單詞不足,使用“Padding”進(jìn)行填充,最終在輸出端進(jìn)行 softmax 分類和 loss 計(jì)算。因此,我們可以通過(guò)比較方法更準(zhǔn)確地得出每個(gè)選項(xiàng)的概率。與二元分類模型相比,多項(xiàng)選擇模型捕獲了更多的語(yǔ)義特征,使模型更全面地訓(xùn)練和預(yù)測(cè)差異,避免負(fù)樣本動(dòng)態(tài)構(gòu)建造成的誤差干擾模型。
如上圖,訓(xùn)練過(guò)程就像一個(gè)金字塔。首先使用多種語(yǔ)言的數(shù)據(jù)進(jìn)行訓(xùn)練,然后在預(yù)訓(xùn)練的基礎(chǔ)上使用一種語(yǔ)言進(jìn)行二次訓(xùn)練。因?yàn)樵趯?shí)驗(yàn)中,隨著更多語(yǔ)言樣本的添加,模型可能會(huì)變得不堪重負(fù)。盡管法語(yǔ)、英語(yǔ)和西班牙語(yǔ)屬于印歐語(yǔ)系,但它們都具有獨(dú)特的語(yǔ)言屬性、句法和詞匯。這將是不同語(yǔ)言的噪聲干擾,模型可能會(huì)忽略特定語(yǔ)言獨(dú)有的語(yǔ)義特征,而更愿意學(xué)習(xí)更常見(jiàn)的語(yǔ)義特征。
作者還使用了對(duì)抗學(xué)習(xí)和 D-Drop,為模型帶來(lái)1-5%的提升。作者還使用了 Child-tuning,即在訓(xùn)練過(guò)程中,只微調(diào)小部分的權(quán)重。
實(shí)驗(yàn)結(jié)果如上圖所示,BETO 是西班牙語(yǔ)預(yù)訓(xùn)練模型,Flaubert-base-cased是法語(yǔ)預(yù)訓(xùn)練模型。mDeberta-v3-base 作者也是在單語(yǔ)種中做了對(duì)比實(shí)驗(yàn)。由表可見(jiàn),mDeberta-v3-base 的如果論單語(yǔ)種微調(diào)的性能,遠(yuǎn)不如只在單個(gè)語(yǔ)種中進(jìn)行預(yù)訓(xùn)練的另外兩個(gè)模型。
不過(guò),如果加上 ADBCMM,也就是使用四份數(shù)據(jù)集,先進(jìn)行訓(xùn)練,之后再在單語(yǔ)種中訓(xùn)練,這能大幅提升模型的效果。其中,“ALLs”表示單模型,使用所有方法在 dev 集中達(dá)到的最佳成績(jī)?!癋inally in Test”,使用了多個(gè)模型進(jìn)行融合,其中包括五折融合/隨機(jī)融合/加權(quán)融合在內(nèi)的諸多融合策略,達(dá)到了最佳的效果。
問(wèn)答(QA)
2.1 Block-Skim
論文標(biāo)題:
Block-Skim: Efficient Question Answering for Transformer
論文鏈接:
https://arxiv.org/abs/2112.08560
NLP 任務(wù)中使用的通用 Transformer encoder 在所有層中處理上下文段落中所有輸入標(biāo)記的隱藏狀態(tài)。然而,與序列分類等其他任務(wù)不同,回答提出的問(wèn)題并不一定需要上下文段落中的所有標(biāo)記。出于這一特點(diǎn),這篇文章的作者提出了 Block-Skim,它可以識(shí)別必須進(jìn)一步處理的上下文以及在推理過(guò)程中可以在早期安全丟棄的上下文,以提高 Transformer 的性能。更重要的是,這些信息可以充分地從 Transformer 的自注意力權(quán)重中推導(dǎo)出來(lái)。
作者在較低層的早期進(jìn)一步修剪與不必要位置相對(duì)應(yīng)的隱藏狀態(tài),可以實(shí)現(xiàn)顯著的推理時(shí)間加速,作者觀察到以這種方式修剪的模型性能優(yōu)于它們的全尺寸模型。Block-Skim 提高了 QA 模型在不同數(shù)據(jù)集上的準(zhǔn)確性,并在 BERTbase 模型上實(shí)現(xiàn)了 3 倍的加速。
作者建議將上下文分割成塊,通過(guò)查看注意力權(quán)重來(lái)學(xué)習(xí)一個(gè)分類器以在較低層中盡早終止不太相關(guān)的塊。如上圖所示,問(wèn)題和答案標(biāo)記用紅色標(biāo)記。只有問(wèn)題和少量證據(jù)塊被完全處理(黃色)。利用注意力權(quán)重(灰色)的知識(shí),略過(guò)其他塊以加速。在事實(shí)答案位置的監(jiān)督下,一個(gè)聯(lián)合學(xué)習(xí)丟棄上下文塊回答問(wèn)題的模型表現(xiàn)出比其全尺寸更好的性能。
如上圖,作者提供了一個(gè)關(guān)于注意力特征圖的實(shí)證研究,以表明注意力圖可以攜帶足夠的信息來(lái)定位答案范圍。作者比較了訓(xùn)練后的 BERTbase 模型中第 4 層和第 9 層的注意力權(quán)重。在第 9 層等后期層,答案標(biāo)記的注意力權(quán)重明顯大于不相關(guān)標(biāo)記的注意力權(quán)重。然而,在第 4 層等早期層,注意力權(quán)重強(qiáng)度對(duì)于答案標(biāo)記和不相關(guān)標(biāo)記無(wú)法區(qū)分。為了更好地減少延遲,希望盡早找到不相關(guān)的令牌。然而,使用注意力權(quán)重值作為相關(guān)性標(biāo)準(zhǔn)在早期層可能會(huì)出現(xiàn)問(wèn)題。
上圖是 Block-Skim 的模型示意圖,這是基于 Transformer 的模型的即插即用模塊,以加速基于 Transformer 的 QA 任務(wù)模型。通過(guò)將注意力權(quán)重矩陣作為特征圖處理,只提供對(duì)角線區(qū)域作為每個(gè)輸入序列塊的輸入表示送入 CNN 預(yù)測(cè)器。使用預(yù)測(cè)的塊掩碼,Block-Skim 會(huì)跳過(guò)不相關(guān)的上下文塊,這些塊不會(huì)進(jìn)入后續(xù)層的計(jì)算。
此外,作者設(shè)計(jì)了一種新的訓(xùn)練范式,將 Block-Skim 目標(biāo)與本地 QA 目標(biāo)聯(lián)合訓(xùn)練,其中有關(guān)問(wèn)題位置的額外優(yōu)化信號(hào)直接提供給注意力機(jī)制。
實(shí)驗(yàn)結(jié)果如上圖所示,可以看出 Block-Skim 在性能和速度上都有不錯(cuò)的表現(xiàn)。
2.2 MuMuQA
論文標(biāo)題:
MuMuQA: Multimedia Multi-Hop News Question Answering via Cross- Media Knowledge Extraction and Grounding
論文鏈接:
https://arxiv.org/abs/2112.10728
這篇文章的作者針對(duì)跨模態(tài) QA 任務(wù)提出了一個(gè)新的 QA 評(píng)估基準(zhǔn)——Multimedia Multi-hop Question Answering(MUMUQA)task。給定一篇帶有圖像-標(biāo)題對(duì)和一個(gè)問(wèn)題的新聞文章,系統(tǒng)需要通過(guò)從正文文本中提取一小段來(lái)回答問(wèn)題。
重要的是,回答問(wèn)題需要多跳推理:第一跳,稱為圖像實(shí)體接地,需要圖像和標(biāo)題之間的跨媒體接地,以獲得與圖像相關(guān)的問(wèn)題的中間答案,命名為橋項(xiàng) (bridge item);第二跳需要對(duì)新聞?wù)倪M(jìn)行推理,通過(guò)使用橋項(xiàng)提取一段文本作為最終答案。例如,在下圖 a 中,在第一跳中,我們需要將“圖像中帶藍(lán)色領(lǐng)帶的人”定位 到標(biāo)題中的特定實(shí)體“Benjamin Netanyahu”。以“Benjamin Netanyahu”作為第二跳的橋梁項(xiàng)目,進(jìn)一步從新聞?wù)闹刑崛∽罱K答案為“Likud”。這些問(wèn)題需要使用圖像中存在的信息進(jìn)行實(shí)體消歧,因此需要跨媒體基礎(chǔ)。
此外,作者還引入了一種基于跨媒體知識(shí)抽取和綜合問(wèn)答生成的新型多媒體數(shù)據(jù)增強(qiáng)框架,以自動(dòng)增強(qiáng)為上述任務(wù)提供弱監(jiān)督的數(shù)據(jù)。如下圖所示,首先,對(duì)圖像-字幕對(duì)進(jìn)行多媒體實(shí)體接地,以識(shí)別圖像中以字幕為基礎(chǔ)的對(duì)象,以獲得接地實(shí)體,例如圖中的“Liviu Dragnea”。
接下來(lái),為接地實(shí)體生成問(wèn)題,例如“Liviu Dragnea 被指控了什么?”。我們首先在標(biāo)題和正文文本上運(yùn)行最先進(jìn)的知識(shí)提取系統(tǒng)識(shí)別正文中對(duì)接地實(shí)體的提及,例如“Liviu Dragnea”和“chairman ”。它使我們能夠找到問(wèn)題生成的候選上下文,我們將其與接地實(shí)體 e 一起輸入合成問(wèn)題生成器以獲得問(wèn)答對(duì)(q,a)。
我們確保生成的問(wèn)題在其文本中提到了接地實(shí)體 e。然后,我們編輯這些問(wèn)題,用其相應(yīng)的視覺(jué)屬性替換接地引用,以產(chǎn)生最終的多跳問(wèn)題,例如“圖像中黃色橫幅中的人是什么?”。
作者在提出的基準(zhǔn)上評(píng)估了基于管道和端到端預(yù)訓(xùn)練的多媒體 QA 模型。如下圖所示,首先,我們將多跳問(wèn)題拆分為一個(gè)引用圖像的問(wèn)題,稱為圖像問(wèn)題,以及一個(gè)關(guān)于文本的問(wèn)題,稱為文本問(wèn)題。為了實(shí)現(xiàn)這一點(diǎn),作者使用了多跳問(wèn)題分解模型。如下圖中,問(wèn)題“圖像中穿紅色外套的人在談?wù)撌裁?#xff1f;”分解為“圖中穿紅衣的人是誰(shuí)”和“[ANSWER] 談了什么”,其中 [ANSWER] 表示第一個(gè)問(wèn)題的答案。
我們將第一個(gè)問(wèn)題作為圖像問(wèn)題,將第二個(gè)問(wèn)題作為文本問(wèn)題。接下來(lái),我們找到一個(gè)可以回答圖像問(wèn)題的邊框,即圖中的藍(lán)色邊框。然后,根據(jù)嵌入的相似性將圖像問(wèn)題與邊框匹配。邊框在其視覺(jué)屬性類上表示為詞袋,例如“女人、西裝、紅色”;問(wèn)題嵌入也表示為圖像問(wèn)題中標(biāo)記上的詞袋。然后,獲得與所選邊界框相關(guān)的文本跨度,例如藍(lán)色邊框的“Nikki Haley”,將此文本跨度稱為橋項(xiàng)。最后,我們將橋項(xiàng)插入到文本問(wèn)題中,并針對(duì)單跳純文本 QA 模型運(yùn)行它,以獲得最終答案。
下圖是 MUMUQA 基準(zhǔn)的開(kāi)發(fā)和測(cè)試集的各種 baseline 的結(jié)果,使用最終答案的宏觀平均 F1 分?jǐn)?shù)進(jìn)行評(píng)估。結(jié)合多媒體知識(shí)提取的好處可以從基于管道的多媒體 QA 系統(tǒng)的強(qiáng)大性能中看出。有趣的是,我們看到端到端多媒體 QA 基線的性能不如多跳純文本系統(tǒng)。這可能是因?yàn)?OSCAR 使用圖像-字幕對(duì)進(jìn)行了預(yù)訓(xùn)練,這使得它可能不適合對(duì)較大的文本輸入(在這種情況下為新聞?wù)?#xff09;進(jìn)行推理。
關(guān)系識(shí)別/抽取
3.1?LDSGM
論文標(biāo)題:
A Label Dependence-aware Sequence Generation Model for Multi-level Implicit Discourse Relation Recognition
論文鏈接:
https://arxiv.org/abs/2112.11740
項(xiàng)目地址:
https://github.com/nlpersECJTU/LDSGM
隱式語(yǔ)篇關(guān)系識(shí)別(Implicit discourse relation recognition, IDRR)是語(yǔ)篇分析中一項(xiàng)具有挑戰(zhàn)性且至關(guān)重要的任務(wù)。大多數(shù)現(xiàn)有方法訓(xùn)練多個(gè)模型獨(dú)立地預(yù)測(cè)多級(jí)標(biāo)簽,忽略了層次結(jié)構(gòu)標(biāo)簽之間的依賴關(guān)系。這篇文章的作者將多級(jí) IDRR 視為條件標(biāo)簽序列生成任務(wù),并為此提出了標(biāo)簽依賴感知序列生成模型(Label Dependence-aware Sequence Generation Model, LDSGM)。
作者首先設(shè)計(jì)了一個(gè)標(biāo)簽注意力 encoder 來(lái)學(xué)習(xí)輸入實(shí)例的全局表示及其特定級(jí)別的上下文,其中集成了標(biāo)簽依賴性以獲得更好的標(biāo)簽嵌入。然后,作者使用標(biāo)簽序列 decoder 以自上而下的方式輸出預(yù)測(cè)標(biāo)簽,其中預(yù)測(cè)的更高級(jí)別的標(biāo)簽直接用于指導(dǎo)當(dāng)前級(jí)別的標(biāo)簽預(yù)測(cè)。
作者進(jìn)一步開(kāi)發(fā)了一種相互學(xué)習(xí)增強(qiáng)的訓(xùn)練方法,以利用自下而上方向的標(biāo)簽依賴性,該方法由訓(xùn)練期間引入的輔助解碼器捕獲。在 PDTB 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,這篇文章的模型在多級(jí) IDRR 上實(shí)現(xiàn)了 SOTA 性能。
上圖是帶注釋的多級(jí)標(biāo)簽和插入的連接詞的隱式 PDTB 實(shí)例。它由兩個(gè)參數(shù)(arg1 和 arg2)組成,并使用三個(gè)分層標(biāo)簽進(jìn)行注釋,其中第二級(jí)/子標(biāo)簽導(dǎo)致進(jìn)一步細(xì)化頂級(jí)/父標(biāo)簽 Contingency 的語(yǔ)義,依此類推。在標(biāo)注過(guò)程中,先插入隱式連接詞因?yàn)橛欣跇?biāo)注標(biāo)注,可以認(rèn)為是最細(xì)粒度的標(biāo)注。
上圖是 LDSGM 的模型架構(gòu)。模型主要由一個(gè)標(biāo)簽注意力 encoder 和一個(gè)標(biāo)簽序列 decoder 組成。
標(biāo)簽注意力 encoder 包括幾個(gè)堆疊的 Transformer 層、一個(gè)圖卷積網(wǎng)絡(luò)(GCN) 和特定于級(jí)別的標(biāo)簽注意機(jī)制。具體來(lái)說(shuō),使用 Transformer 層來(lái)學(xué)習(xí)輸入實(shí)例的局部和全局表示,使用 GCN 通過(guò)整合分層結(jié)構(gòu)標(biāo)簽之間的依賴關(guān)系來(lái)獲得更好的標(biāo)簽嵌入,最后使用標(biāo)簽注意機(jī)制來(lái)從局部表示提取特定級(jí)別的上下文。之后,將學(xué)習(xí)到的全局表示和特定級(jí)別的上下文用作 decoder 的輸入,以生成標(biāo)簽序列。
標(biāo)簽序列 decoder是一個(gè)基于 RNN 的 decoder,它以自上而下的方式(即頂級(jí)標(biāo)簽、二級(jí)標(biāo)簽等)順序生成預(yù)測(cè)標(biāo)簽。通過(guò)這樣做,可以使用易于預(yù)測(cè)的更高級(jí)別的標(biāo)簽來(lái)指導(dǎo)當(dāng)前級(jí)別的標(biāo)簽預(yù)測(cè)。作者選擇門循環(huán)單元(GRU)來(lái)構(gòu)建 decoder,因?yàn)樗谖谋旧芍械膹V泛使用和標(biāo)簽序列的短長(zhǎng)度(Transformer 也可以用作解碼器)。
上圖是訓(xùn)練過(guò)程的算法描述,最顯著的特點(diǎn)是模型和輔助 decoder 可以通過(guò)在訓(xùn)練期間在它們之間迭代地傳遞知識(shí)來(lái)相互促進(jìn)。為此,除了傳統(tǒng)的基于交叉熵的損失之外,作者還引入了兩個(gè)額外的損失來(lái)最小化這兩個(gè)解碼器的預(yù)測(cè)標(biāo)簽分布之間的差異:
其中 表示訓(xùn)練集, 和 是 encoder 和 decoder 的參數(shù)集, 是輔助 decoder 的參數(shù)集。 是真實(shí)標(biāo)簽的 one-hot 編碼, 和 分別是 decoder 和輔助 decoder 預(yù)測(cè)到的第 m 級(jí)的標(biāo)簽分布。 是 的期望, 是 KL 散度。 是用于控制不同損失項(xiàng)目影響的系數(shù)。重復(fù)上述知識(shí)轉(zhuǎn)移過(guò)程,直到兩個(gè)損失函數(shù)收斂。這樣做可以捕獲自上而下和自下而上方向的標(biāo)簽依賴性。
上圖是作者在 PDTB 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果,可以得出:
1. 所有使用上下文詞嵌入增強(qiáng)的模型都優(yōu)于使用靜態(tài)詞嵌入的模型;
2. 在大多數(shù)情況下,聯(lián)合推斷多級(jí)標(biāo)簽(HierMTN-CRF-RoBERTa、OurEncoder+OurDecoder、LDSGM)比在 BMGF-RoBERTa 中單獨(dú)預(yù)測(cè)的性能更好,這意味著整合標(biāo)簽依賴性確實(shí)有幫助;
3. LDSGM 模型在所有三個(gè)級(jí)別的分類任務(wù)上都達(dá)到了最先進(jìn)的性能。
上圖是作者消融學(xué)習(xí)的實(shí)驗(yàn)結(jié)果。
3.2?AT-BMC
論文標(biāo)題:
Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction
論文鏈接:
https://arxiv.org/abs/2112.10424
項(xiàng)目地址:
https://github.com/crazyofapple/AT-BMC
這篇文章的作者提出了一種名為 AT-BMC 的聯(lián)合分類和基本原理提取模型。它包括兩個(gè)關(guān)鍵機(jī)制:混合對(duì)抗訓(xùn)練(Adversarial Training, AT)——旨在使用離散和嵌入空間中的各種擾動(dòng)來(lái)提高模型的魯棒性;邊界匹配約束(Boundary Match Constraint, BMC)——有助于在邊界信息引導(dǎo)下更準(zhǔn)確地定位關(guān)系。
在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提出的 AT-BMC 在分類和基本原理提取方面都大大優(yōu)于基線。魯棒性分析表明,所提出的 AT-BMC 有效地將攻擊成功率降低了 69%。實(shí)證結(jié)果表明,穩(wěn)健的模型和更好的解釋之間存在聯(lián)系。
上圖是 AT-BMC 模型的框架。首先使用預(yù)訓(xùn)練的語(yǔ)言模型作為共享編碼器,將輸入編碼作為隱藏表示。然后使用線 性分類器對(duì) 和 進(jìn)行建模。輸出是由線性分類器預(yù)測(cè)的標(biāo)簽和由 CRF 解碼器生成的基本原理跨 度。作者還根據(jù)分類模型的預(yù)測(cè)標(biāo)簽輸出來(lái)調(diào)節(jié)提取模型。通過(guò)使用嵌入查找層來(lái)實(shí)現(xiàn)這一點(diǎn),并將標(biāo)簽嵌入添加 到編碼器的每個(gè) token 表示中。
上圖是嵌入層的對(duì)抗訓(xùn)練算法。
上圖是具有基本原理提取的兩個(gè)文本分類任務(wù)的性能比較以及消融實(shí)驗(yàn)。作者比較了使用不同編碼器(即 BERT- base 和 RoBERTa-large)的 AT-BMC 的測(cè)試集結(jié)果。
3.3?Hierarchical Stochastic Attention
論文標(biāo)題:
Transformer Uncertainty Estimation with Hierarchical Stochastic Attention
論文鏈接:
https://arxiv.org/abs/2112.13776
這篇文章的作者提出了一種使 transformer 具有不確定性估計(jì)的能力,同時(shí)保留原始的預(yù)測(cè)性能的方法。這是通過(guò)學(xué)習(xí)分層隨機(jī)自注意力來(lái)實(shí)現(xiàn)的,該自注意力分別關(guān)注值和一組可學(xué)習(xí)的質(zhì)心。然后使用 Gumbel-Softmax 技巧混合采樣質(zhì)心形成新的注意力頭。理論上表明,通過(guò)從 Gumbel 分布中采樣的自注意力近似是有上限的。作者在具有域內(nèi)(in-domain, ID)和域外(out-of-domain, OOD)數(shù)據(jù)集的兩個(gè)文本分類任務(wù)上評(píng)估模型。
實(shí)驗(yàn)結(jié)果本文提出的方法:(1)在比較方法中實(shí)現(xiàn)了最佳的預(yù)測(cè)性能和不確定性權(quán)衡;(2)在 ID 數(shù)據(jù)集上表現(xiàn)出非常有競(jìng)爭(zhēng)力的預(yù)測(cè)性能;(3)在 OOD 數(shù)據(jù)集的不確定性估計(jì)中與 Monte Carlo dropout 和 ensemble 方法相當(dāng)。
上圖是不確定性估計(jì)的方法。(a)確定性神經(jīng)網(wǎng)絡(luò)輸出單點(diǎn)預(yù)測(cè);(b)貝葉斯神經(jīng)網(wǎng)絡(luò)通過(guò)從高斯分布中采樣來(lái)捕捉不確定性;(c)變分 dropout 通過(guò)從 Bernoulli 分布中采樣 dropout 掩碼來(lái)捕獲不確定性;(d)集成通過(guò)將多個(gè)獨(dú)訓(xùn)練的確定性模型與不同的隨機(jī)種子相結(jié)合來(lái)捕捉不確定性;(e)用于不確定性估計(jì)的 Gumbel-Softmax 技巧,隨機(jī)性來(lái)自 Gumbel 的抽樣分類分布。
與上述模型不同,作者提出了一種基于 Gumbel-Softmax 技巧或 Concrete Dropout 的簡(jiǎn)單而有效的方法。首先,將每個(gè) self-attention head 中的值的確定性注意力分布轉(zhuǎn)換為隨機(jī)的。然后從 Gumbel-Softmax 分布中對(duì)注意力進(jìn)行采樣,該分布控制值上的濃度。
接著將 self-attention 中的關(guān)鍵頭正則化以關(guān)注一組可學(xué)習(xí)的質(zhì)心。這相當(dāng)于對(duì)鍵執(zhí)行聚類或?qū)?RNN 中的隱藏狀態(tài)進(jìn)行聚類。然后每個(gè)新的鍵頭將由 Gumbel-Softmax 采樣質(zhì)心的混合形成。通過(guò)從 Gumbel-Softmax 分布中采樣來(lái)注入隨機(jī)性。使用這種機(jī)制,我們使用基于分層隨機(jī)自注意的隨機(jī)變換器來(lái)近似 vanilla transformer,即 H-STO-TRANS,它能夠?qū)χ狄约耙唤M可學(xué)習(xí)質(zhì)心上的注意分布進(jìn)行采樣。
上圖是確定性和隨機(jī)變換器中多頭自注意力的說(shuō)明。(a)具有確定性自注意的 vanilla transformer。(b)隨機(jī) transformer 具有用于加權(quán)值 V 的隨機(jī)自注意力,標(biāo)準(zhǔn)的 Softmax 被 Gumbel-Softmax 取代。(c)分層隨機(jī) transformer 隨機(jī)學(xué)習(xí)注意值 V 和一組可學(xué)習(xí)的質(zhì)心 C。
上圖是分層隨機(jī) transformer 的算法。具體細(xì)節(jié)也可以在原文中進(jìn)一步了解。
上圖是在 IMDB(ID)和 CR(OOD)數(shù)據(jù)集上模型的預(yù)測(cè)性能和不確定性估計(jì)。
3.4?Evaluating-Explanations
論文標(biāo)題:
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations
論文鏈接:
https://arxiv.org/abs/2112.09669
項(xiàng)目地址:
https://github.com/siddhu001/Evaluating-Explanations
這篇文章的作者進(jìn)行了一項(xiàng)眾包研究,參與者與經(jīng)過(guò)訓(xùn)練以區(qū)分真假酒店評(píng)論的欺騙檢測(cè)模型進(jìn)行交互。他們既要在新評(píng)論上模擬模型,又要編輯評(píng)論以降低最初預(yù)測(cè)類別的概率。在訓(xùn)練(但不是測(cè)試)階段,輸入跨度被突出顯示以傳達(dá)顯著性。通過(guò)評(píng)估,作者觀察到對(duì)于線性詞袋模型,與無(wú)解釋控制相比,在訓(xùn)練期間訪問(wèn)特征系數(shù)的參與者能夠在測(cè)試階段導(dǎo)致模型置信度的更大程度降低。對(duì)于基于 BERT 的分類器,流行的局部解釋并不能提高其在無(wú)解釋情況下降低模型置信度的能力。
上圖是本文的用戶研究,在訓(xùn)練階段向參與者展示:a)首先,參與者猜測(cè)模型預(yù)測(cè);(b)參與者編輯評(píng)論以降低模型對(duì)預(yù)測(cè)類別的信心。參與者會(huì)實(shí)時(shí)收到有關(guān)其編輯的反饋、觀察更新的預(yù)測(cè)、信心和歸因。
作者測(cè)量了三個(gè)指標(biāo)(a)模擬準(zhǔn)確性(b)模型置信度的平均降低(c)翻轉(zhuǎn)示例的百分比。三種混合效應(yīng)模型可以描述為:
上圖是不同解釋下的人類表現(xiàn)。沒(méi)有任何解釋有助于參與者模擬模型,而對(duì) BERT 模型的全局解釋和邏輯回歸模型的特征系數(shù)有助于降低模型置信度。
上圖是相對(duì)于 3 個(gè)目標(biāo)指標(biāo)的控制的固定效應(yīng)項(xiàng) 。
作者得出結(jié)論:對(duì)于線性模型和基于 BERT 分類器的幾種解釋都沒(méi)有提高模型的可模擬性。當(dāng)屬性不可用時(shí),在訓(xùn) 練期間可以訪問(wèn)特征系數(shù)的參與者可能會(huì)在測(cè)試期間導(dǎo)致模型置信度大幅下降。有趣的是,對(duì)于基于 BERT 的分類器,使用經(jīng)過(guò)訓(xùn)練以模擬其預(yù)測(cè)的線性學(xué)生模型獲得的全局提示詞和特征系數(shù)被證明是有效的。這些結(jié)果表明,線 性學(xué)生模型的關(guān)聯(lián)可以為基于 BERT 的模型提供見(jiàn)解,重要的是,編輯范式可用于區(qū)分解釋的相對(duì)效用。
3.5?CAP
論文標(biāo)題:
From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression
論文鏈接:
https://arxiv.org/abs/2112.07198
項(xiàng)目地址:
https://github.com/alibaba/AliceMind/tree/main/ContrastivePruning
為了在剪枝模型中保持與任務(wù)無(wú)關(guān)和特定于任務(wù)的知識(shí),這篇文章的作者在預(yù)訓(xùn)練和微調(diào)的范式下提出了對(duì)比剪枝(ContrAstive Pruning, CAP)。CAP 被設(shè)計(jì)為一個(gè)通用框架,與結(jié)構(gòu)化和非結(jié)構(gòu)化剪枝兼容。CAP 能夠讓剪枝后的模型從預(yù)訓(xùn)練的模型中學(xué)習(xí)任務(wù)不可知的知識(shí),以及微調(diào)模型中的任務(wù)特定知識(shí)。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代的中間模型)也可以作為剪枝的有效監(jiān)督。
實(shí)驗(yàn)表明,采用 CAP 始終會(huì)產(chǎn)生顯著的改進(jìn),尤其是在極其稀疏的場(chǎng)景中。僅保留 3% 的模型參數(shù)(即 97% 的稀疏性),CAP 在 QQP 和 MNLI 任務(wù)中成功實(shí)現(xiàn)了原始 BERT 性能的 99.2% 和 96.3%。此外,探索性實(shí)驗(yàn)表明,經(jīng)過(guò) CAP 修剪的模型往往具有更好 的泛化能力。
上圖是帶有和不帶有 CAP 的 BERT 剪枝的比較。展示了具有不同模型稀疏度(50%、90% 和 97%)的 MNLI、QQP 和 SQuAD 任務(wù)的平均分?jǐn)?shù)。CAP 在不同的剪枝標(biāo)準(zhǔn)下始終如一地產(chǎn)生改進(jìn),在更高的稀疏度下獲得更大的收益(1.0 → 1.3 → 2.0)。
圖是 CAP 的框架,逐步剪枝模型 ,其中數(shù)字表示稀疏率(%)。總體而言,CAP 由 三個(gè)對(duì)比模塊組成:PrC、SnC 和 FiC。
PrC(綠線):使用預(yù)訓(xùn)練模型 進(jìn)行對(duì)比學(xué)習(xí),以保持與任務(wù)無(wú)關(guān)的知識(shí)。
SnC(黃線):使用快照 進(jìn)行對(duì)比學(xué)習(xí),以彌合預(yù)訓(xùn)練模型和當(dāng)前修剪模型之間的差距,并獲得歷史和多樣 化的知識(shí)。
FiC(藍(lán)線):使用微調(diào)模型 進(jìn)行對(duì)比學(xué)習(xí),以獲得特定于任務(wù)的知識(shí)。
實(shí)線表示當(dāng)前修剪模型 的學(xué)習(xí),而虛線表示先前快照 和 的學(xué)習(xí)。
將 PrC、SnC 和 FiC 放在一起,就可以得到 CAP 框架。注意,我們可以靈活地與 CAP 中的不同修剪標(biāo)準(zhǔn)集成。
上圖是 CAP 與其他沒(méi)有數(shù)據(jù)增強(qiáng)的模型壓縮方法的比較。CAP 在不同任務(wù)的相同稀疏率下始終實(shí)現(xiàn)最佳性能。
上圖是不同對(duì)比模塊的消融研究??梢钥闯鰟h除任何對(duì)比模塊都會(huì)導(dǎo)致修剪模型的退化,尤其是在高度稀疏的情況下。
作者在原文中還給出了更詳細(xì)的實(shí)驗(yàn)結(jié)果對(duì)比,值得進(jìn)一步學(xué)習(xí)。
3.6 Probing Linguistic Information
論文標(biāo)題:
Probing Linguistic Information For Logical Inference In Pre-trained Language Models
論文鏈接:
https://arxiv.org/abs/2112.01753
這篇文章的作者提出了一種在預(yù)訓(xùn)練的語(yǔ)言模型表示中探測(cè)語(yǔ)言信息以進(jìn)行邏輯推理的方法。探測(cè)數(shù)據(jù)集涵蓋了主要符號(hào)推理系統(tǒng)所需的語(yǔ)言現(xiàn)象列表。作者發(fā)現(xiàn)(i)預(yù)訓(xùn)練的語(yǔ)言模型確實(shí)編碼了幾種類型的語(yǔ)言信息用于推理,但也有一些類型的信息被弱編碼(ii)語(yǔ)言模型可以通過(guò)微調(diào)有效地學(xué)習(xí)缺失的語(yǔ)言信息??傮w而言,作者的研究結(jié)果提供了關(guān)于語(yǔ)言模型及其預(yù)訓(xùn)練程序捕獲邏輯推理的語(yǔ)言信息的哪些方面的見(jiàn)解。此外,作者展示了語(yǔ)言模型作為支持符號(hào)推理方法的語(yǔ)義和背景知識(shí)庫(kù)的潛力。
作者提出的推理信息探測(cè)框架如上圖所示。作者定義了一組探測(cè)任務(wù),專注于符號(hào)系統(tǒng)所需的不同類型的語(yǔ)言信息。特別是,涵蓋了關(guān)于句法、基本語(yǔ)義和高級(jí)語(yǔ)義推理的語(yǔ)言信息。高級(jí)語(yǔ)義推理通常依賴于多種類型的基本語(yǔ)義。例如,基于關(guān)系知識(shí)的語(yǔ)義對(duì)齊需要回指解析、命名實(shí)體和詞匯語(yǔ)義。我們要回答兩個(gè)問(wèn)題:(1)預(yù)訓(xùn)練的語(yǔ)言模型是否對(duì)符號(hào)推理系統(tǒng)必不可少的語(yǔ)言信息進(jìn)行編碼?(2)預(yù)訓(xùn)練的語(yǔ)言模型是否在 NLI 任務(wù)的微調(diào)過(guò)程中獲取新的語(yǔ)言信息以進(jìn)行推理?
上圖是句子 “A young and tall boy wearing a black uniform is trying to catch a fast soccer ball, in front of a soccer goal.” 的用于表示語(yǔ)義知識(shí)的語(yǔ)義圖。
上圖是語(yǔ)義對(duì)齊任務(wù)和矛盾簽名檢測(cè)任務(wù)的示例。紅色框是語(yǔ)義對(duì)齊的跨度。黃色框是形成矛盾簽名的跨度。藍(lán)色框是與語(yǔ)義對(duì)齊或矛盾無(wú)關(guān)的跨度。這里 P 代表前提,H 代表假設(shè)。對(duì)于標(biāo)簽, 表示 和 對(duì)齊。 表示標(biāo)記 到 屬于語(yǔ)義對(duì)齊對(duì)中的第一個(gè)短語(yǔ)。探測(cè)數(shù)據(jù)首先從 NLU 的多個(gè)挑戰(zhàn)數(shù)據(jù)集中收集,然后為邊緣和頂點(diǎn)探測(cè)框架手動(dòng)注釋。
上圖列出了探測(cè)和微調(diào)實(shí)驗(yàn)的結(jié)果。語(yǔ)言模型為一個(gè)標(biāo)簽編碼比其他標(biāo)簽更多的語(yǔ)言信息。這種標(biāo)簽方面的信息差異再次證明了一些語(yǔ)言信息在語(yǔ)言模型中的推理缺失和不完整。此外,我們發(fā)現(xiàn)語(yǔ)言模型可以通過(guò)對(duì) NLI 任務(wù)的微調(diào)來(lái)有效地學(xué)習(xí)高級(jí)語(yǔ)義推理中某些類型的缺失信息??傮w而言,語(yǔ)言模型顯示出作為支持更強(qiáng)大的符號(hào)推理的語(yǔ)言信息知識(shí)庫(kù)的潛力。
對(duì)于未來(lái)的工作,可以通過(guò)構(gòu)建更詳細(xì)的探測(cè)數(shù)據(jù)集對(duì)語(yǔ)言模型中的每種語(yǔ)言信息進(jìn)行進(jìn)一步分析。人們還可以設(shè)計(jì)邏輯系統(tǒng),該系統(tǒng)可以從預(yù)先訓(xùn)練的語(yǔ)言模型中訪問(wèn)語(yǔ)言信息,并將它們應(yīng)用到推理過(guò)程中,以提高大型基準(zhǔn)測(cè)試的性能。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的AAAI 2022上那些值得关注的NLP论文的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 怎么用u盘进行分区吗 利用U盘进行分区的
- 下一篇: 装系统怎么进入u盘启动不了怎么办 如何处