微调BERT:序列级和令牌级应用程序
微調(diào)BERT:序列級(jí)和令牌級(jí)應(yīng)用程序
Fine-Tuning BERT for Sequence-Level and Token-Level Applications
為自然語(yǔ)言處理應(yīng)用程序設(shè)計(jì)了不同的模型,例如基于RNNs、CNNs、attention和MLPs。當(dāng)存在空間或時(shí)間限制時(shí),這些模型是有用的,然而,為每個(gè)自然語(yǔ)言處理任務(wù)構(gòu)建一個(gè)特定的模型實(shí)際上是不可行的。介紹了一個(gè)預(yù)訓(xùn)練模型,BERT,要求對(duì)各種自然語(yǔ)言處理任務(wù)進(jìn)行最小的體系結(jié)構(gòu)更改。一方面,在提出這個(gè)建議的時(shí)候,BERT改進(jìn)了各種自然語(yǔ)言處理任務(wù)的現(xiàn)狀。另一方面,如14.10節(jié)所述,原始BERT模型的兩個(gè)版本都有1.1億和3.4億個(gè)參數(shù)。因此,當(dāng)有足夠的計(jì)算資源時(shí),可以考慮為下游自然語(yǔ)言處理應(yīng)用程序微調(diào)BERT。
現(xiàn)在,將自然語(yǔ)言處理應(yīng)用程序的子集概括為序列級(jí)和令牌級(jí)。在序列層次上,介紹了在單文本分類和文本對(duì)分類或回歸中如何將文本輸入的BERT表示轉(zhuǎn)換為輸出標(biāo)簽。在令牌級(jí)別,將簡(jiǎn)要介紹新的應(yīng)用程序,如文本標(biāo)記和問(wèn)答,并闡明BERT如何表示其輸入并轉(zhuǎn)換為輸出標(biāo)簽。在“微調(diào)”過(guò)程中,不同的應(yīng)用程序需要“完全連接”不同的層。在下游應(yīng)用程序的監(jiān)督學(xué)習(xí)過(guò)程中,外層的參數(shù)從零開始學(xué)習(xí),同時(shí)對(duì)預(yù)訓(xùn)練的BERT模型中的所有參數(shù)進(jìn)行微調(diào)。
- Single Text Classification
單一文本分類以單個(gè)文本序列為輸入,輸出分類結(jié)果。除了在本章中研究的情感分析之外,語(yǔ)言可接受性語(yǔ)料庫(kù)(CoLA)也是一個(gè)用于單個(gè)文本分類的數(shù)據(jù)集,用于判斷給定句子在語(yǔ)法上是否可接受[Warstadt等人,2019]。例如,“應(yīng)該學(xué)習(xí)”是可以接受的,但是“應(yīng)該學(xué)習(xí)”則不是。
圖1針對(duì)單個(gè)文本分類應(yīng)用(如情感分析和測(cè)試語(yǔ)言可接受性)的微調(diào)BERT。假設(shè)輸入的單個(gè)文本有六個(gè)標(biāo)記。
描述了BERT的輸入表示。BERT輸入序列明確表示單個(gè)文本和文本對(duì),其中特殊分類標(biāo)記“”用于序列分類,特殊分類標(biāo)記“”標(biāo)記單個(gè)文本的結(jié)尾或分隔一對(duì)文本。如圖1所示,在單個(gè)文本分類應(yīng)用中,特殊分類標(biāo)記“”的BERT表示對(duì)整個(gè)輸入文本序列的信息進(jìn)行編碼。作為輸入單個(gè)文本的表示,將被輸入一個(gè)由完全連接(密集)層組成的小MLP,以輸出所有離散標(biāo)簽值的分布。
- Text Pair Classification or Regression
研究了自然語(yǔ)言推理。屬于文本對(duì)分類,是一種對(duì)文本進(jìn)行分類的應(yīng)用程序。
以一對(duì)文本作為輸入,輸出一個(gè)連續(xù)值,語(yǔ)義文本相似度是一個(gè)流行的文本對(duì)回歸任務(wù)。這個(gè)任務(wù)測(cè)量句子的語(yǔ)義相似性。例如,在語(yǔ)義-文本相似度基準(zhǔn)數(shù)據(jù)集中,一對(duì)句子的相似度得分是一個(gè)從0(無(wú)意義重疊)到5(意義對(duì)等)的有序量表[Cer等人,2017]。目標(biāo)是預(yù)測(cè)這些分?jǐn)?shù)。語(yǔ)義-文本相似度基準(zhǔn)數(shù)據(jù)集的示例包括(第1句、第2句、相似度得分):
· “A plane is taking off.”, “An air plane is taking off.”, 5.000;
· “A woman is eating something.”, “A woman is eating meat.”, 3.000;
· “A woman is dancing.”, “A man is talking.”, 0.000.
Fig. 2. Fine-tuning BERT for text pair classification or regression
applications, such as natural language inference and semantic textual
similarity. Suppose that the input text pair has two and three tokens.
與圖1中的單個(gè)文本分類相比,圖2中文本對(duì)分類的微調(diào)BERT在輸入表示上有所不同。對(duì)于文本對(duì)回歸任務(wù)(如語(yǔ)義文本相似性),可以應(yīng)用一些微小的更改,例如輸出連續(xù)的標(biāo)簽值和使用均方損失:在回歸中很常見。
- Text Tagging
現(xiàn)在讓考慮令牌級(jí)別的任務(wù),例如文本標(biāo)記,其中每個(gè)令牌都分配了一個(gè)標(biāo)簽。在文本標(biāo)注任務(wù)中,詞性標(biāo)注根據(jù)詞在句子中的作用為每個(gè)詞分配一個(gè)詞性標(biāo)記(如形容詞和限定詞)。例如,根據(jù)Penn Treebank II標(biāo)記集,句子“John Smith的汽車是新的”應(yīng)該標(biāo)記為“NNP(名詞,固有單數(shù))NNP POS(所有格結(jié)尾)NN(名詞,單數(shù)或質(zhì)量)VB(動(dòng)詞,基本形式)JJ(形容詞)”。
Fig. 3. Fine-tuning BERT for text tagging applications, such as
part-of-speech tagging. Suppose that the input single text has six tokens.
圖3說(shuō)明了文本標(biāo)記應(yīng)用程序的微調(diào)BERT。與圖1相比,唯一的區(qū)別在于在文本標(biāo)記中,輸入文本的每個(gè)標(biāo)記的BERT表示被輸入到相同的額外完全連接的層中,以輸出標(biāo)記的標(biāo)簽,例如詞性標(biāo)簽。
- Question Answering
問(wèn)答作為另一個(gè)符號(hào)級(jí)應(yīng)用,反映了閱讀理解的能力。例如,斯坦福問(wèn)答數(shù)據(jù)集(SQuAD v1.1)由閱讀段落和問(wèn)題組成,每個(gè)問(wèn)題的答案只是問(wèn)題所在段落中的一段文本(文本跨度)[Rajpurkar等人,2016年]。為了解釋這一點(diǎn),可以考慮這樣一段話:“一些專家報(bào)告說(shuō),口罩的功效是不確定的。然而,口罩制造商堅(jiān)持產(chǎn)品,如N95口罩,可以抵御病毒?”. 答案應(yīng)該是文中的“口罩制造者”。因此,SQuAD v1.1的目標(biāo)是在給定一對(duì)問(wèn)題和一段文章的情況下,預(yù)測(cè)文章的開始和結(jié)束。
Fig.4. Fine-tuning BERT for question answering. Suppose that the input text pair has two and three tokens.
為了對(duì)BERT進(jìn)行微調(diào),在BERT的輸入中,將問(wèn)題和段落分別打包為第一和第二文本序列。為了預(yù)測(cè)文本跨距開始的位置,相同的附加全連接層將從位置通道轉(zhuǎn)換任何令牌的BERT表示i變成標(biāo)量分?jǐn)?shù)si。所有通行令牌的這種分?jǐn)?shù)通過(guò)softmax操作進(jìn)一步轉(zhuǎn)換成概率分布,使得每個(gè)令牌位置i有一個(gè)概率pi。作為文本跨度的開始。預(yù)測(cè)文本跨距的結(jié)束與上述相同,只是其附加的完全連接層中的參數(shù)與用于預(yù)測(cè)開始的參數(shù)無(wú)關(guān)。在預(yù)測(cè)終點(diǎn)時(shí),任何位置的通行標(biāo)志i由相同的完全連通層轉(zhuǎn)換為標(biāo)量分?jǐn)?shù)ei。
eiei. :numref:fig_bert-qa描述了用于問(wèn)答的微調(diào)BERT。
對(duì)于問(wèn)題回答,監(jiān)督學(xué)習(xí)的訓(xùn)練目標(biāo)與最大化地面真相起始和結(jié)束位置的對(duì)數(shù)可能性一樣簡(jiǎn)單。在預(yù)測(cè)跨度時(shí),可以計(jì)算得分si+ej,從位置開始有效跨距i到位置j(i≤j),輸出得分最高的跨度。
- Summary
· BERT requires minimal architecture changes (extra fully-connected layers) for sequence-level and token-level natural language processing applications, such as single text classification (e.g., sentiment analysis and testing linguistic acceptability), text pair classification or regression (e.g., natural language inference and semantic textual similarity), text tagging (e.g., part-of-speech tagging), and question answering.
· During supervised learning of a downstream application, parameters of the extra layers are learned from scratch while all the parameters in the pretrained BERT model are fine-tuned.
總結(jié)
以上是生活随笔為你收集整理的微调BERT:序列级和令牌级应用程序的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 自然语言推理:使用注意力机制
- 下一篇: 自然语言推理:微调BERT