微软提出AdaLM,用于开发小型、快速且有效的领域预训练语言模型
?作者 |?常馨
學(xué)校 |?北京郵電大學(xué)碩士生
研究方向 |?NLP、信息檢索
論文標(biāo)題:
Adapt-and-Distill: Developing Small, Fast and Effective
Pretrained Language Models for Domains
收錄會(huì)議:
ACL 2021
論文鏈接:
https://arxiv.org/abs/2106.13474
代碼鏈接:
https://github.com/microsoft/unilm/tree/master/adalm
Abstract
大型預(yù)訓(xùn)練模型在許多自然語(yǔ)言處理任務(wù)中取得了巨大的成功。然而,當(dāng)這些模型應(yīng)用于特定的領(lǐng)域時(shí),往往會(huì)出現(xiàn)領(lǐng)域遷移(domain shift)的問(wèn)題,并且會(huì)因?yàn)檠舆t和容量限制原因,為微調(diào)和在線服務(wù)帶來(lái)挑戰(zhàn)。
在本文中,作者引入了框架 AdaLM,來(lái)開(kāi)發(fā)用于特定領(lǐng)域的小型、快速且有效的預(yù)訓(xùn)練語(yǔ)言模型。
具體是通過(guò)適應(yīng)(adapt)現(xiàn)有的通用預(yù)訓(xùn)練模型和在目標(biāo)領(lǐng)域執(zhí)行任務(wù)獨(dú)立的知識(shí)蒸餾(knowledge distillation)來(lái)實(shí)現(xiàn)的。作者提出在 adaptation 適應(yīng)階段進(jìn)行特定領(lǐng)域的詞匯擴(kuò)展,并根據(jù)語(yǔ)料庫(kù)的出現(xiàn)概率來(lái)自動(dòng)選擇增量詞匯的大小。
然后,為壓縮用于特定領(lǐng)域的大型預(yù)訓(xùn)練模型,作者系統(tǒng)地探討了不同的壓縮策略。作者在生物醫(yī)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在特定領(lǐng)域的任務(wù)中,該方法比 BERT-BASE 模型具有更好的性能,而且比 BERT-BASE 模型小 3.3 倍,快 5.1 倍。
Intro
BERT、GPT 等預(yù)訓(xùn)練語(yǔ)言模型在許多 NLP 任務(wù)中取得成功,這些模型有著上億的參數(shù)量,它們?cè)谝话泐I(lǐng)域的大規(guī)模語(yǔ)料庫(kù)上預(yù)訓(xùn)練,然后在目標(biāo)領(lǐng)域的任務(wù)上微調(diào)。但是直接將這些模型用于特定領(lǐng)域并不簡(jiǎn)單,首先,龐大的模型尺寸和高延遲使得很難部署在資源有限的邊緣設(shè)備上,如移動(dòng)電話。其次,當(dāng)目標(biāo)域與一般域之間存在很大差別時(shí),直接在特定任務(wù)上微調(diào)可能效果并不是最優(yōu)的。第三,許多領(lǐng)域都有自己的特定術(shù)語(yǔ),這些術(shù)語(yǔ)可能并不包含在預(yù)訓(xùn)練模型的詞匯表中。
為了解決領(lǐng)域遷移問(wèn)題,近期研究通過(guò)持續(xù)的預(yù)訓(xùn)練,使一般領(lǐng)域預(yù)訓(xùn)練模型適應(yīng)到具體的特定領(lǐng)域。然而,特定領(lǐng)域包含許多域內(nèi)術(shù)語(yǔ),領(lǐng)域特定詞匯在預(yù)訓(xùn)練模型的領(lǐng)域適應(yīng)中起著至關(guān)重要的作用。因此在本文中作者提出了一種適應(yīng)階段的領(lǐng)域?qū)S迷~匯擴(kuò)展。由于我們需要將這些特定詞匯劃分為 bit 大小的小塊,因此確定增量詞匯量的大小也很重要。在本文,AdaLM 以語(yǔ)料庫(kù)出現(xiàn)概率作為度量,來(lái)自動(dòng)優(yōu)化增量詞匯的大小。
本文系統(tǒng)探索了將一般 BERT 壓縮到特定領(lǐng)域的四種不同策略。
最終在實(shí)驗(yàn)中,Adapt-and-Distill 在特定領(lǐng)域的任務(wù)中實(shí)現(xiàn)了 SOTA 的結(jié)果。本文模型結(jié)構(gòu)有 6 層,384 個(gè)隱藏維度,該模型優(yōu)于 BERT-BASE 模型,而且更小、更快。此外,注意到之前沒(méi)有工作系統(tǒng)探究在特定領(lǐng)域?qū)崿F(xiàn)有效、高效的小模型的不同策略。
Related Work
3.1 預(yù)訓(xùn)練模型的域適應(yīng)
以往關(guān)于預(yù)訓(xùn)練模型領(lǐng)域適應(yīng)的研究大多針對(duì)大模型,相關(guān)研究通過(guò)持續(xù)的預(yù)訓(xùn)練使大模型適應(yīng)到不同的領(lǐng)域。但是許多專業(yè)領(lǐng)域包含自己的特定詞匯,這些詞匯并不包含在預(yù)訓(xùn)練模型的詞匯表中。在生物醫(yī)學(xué)領(lǐng)域有研究者提出了模型 PubMedBERT,從零開(kāi)始創(chuàng)建詞匯,并從零開(kāi)始對(duì)模型進(jìn)行預(yù)訓(xùn)練。
此外,許多領(lǐng)域中沒(méi)有足夠大的語(yǔ)料庫(kù)來(lái)支持從頭開(kāi)始的預(yù)訓(xùn)練,有研究者使用域內(nèi)頻繁出現(xiàn)的詞匯進(jìn)行開(kāi)放域的詞匯擴(kuò)展來(lái)解決該問(wèn)題。但是這種方法忽略了特定領(lǐng)域的子詞單位(如詞前綴 blasto-:胚;germin-:萌芽),而這些子詞是有助于概括領(lǐng)域知識(shí)的,避免出現(xiàn)沒(méi)見(jiàn)過(guò)的詞。
3.2 任務(wù)獨(dú)立的知識(shí)蒸餾
知識(shí)蒸餾是一種有效的壓縮大模型同時(shí)保持準(zhǔn)確性的方法。本文關(guān)注的是任務(wù)獨(dú)立的知識(shí)蒸餾方法,該方法中,知識(shí)蒸餾出來(lái)的小型預(yù)訓(xùn)練模型可以直接微調(diào)到下游任務(wù)中。
DistilBERT 使用軟標(biāo)簽和嵌入輸出來(lái)監(jiān)督 student。
TinyBERT 和 MobileBERT 引入自注意分布和隱藏狀態(tài)來(lái)訓(xùn)練 student 模型。
MiniLM 沒(méi)有對(duì) student 層數(shù)進(jìn)行限制,利用 teacher 最后一個(gè) transformer 層的自注意分布和價(jià)值關(guān)系來(lái)監(jiān)督 student 模型。
MiniLM 的方法更加靈活,因此我們采用 MiniLM 來(lái)壓縮大模型。
Methods
4.1 Overview:實(shí)現(xiàn)特定領(lǐng)域小模型的四種策略
Pretrain-from-scratch:在特定領(lǐng)域從零開(kāi)始預(yù)訓(xùn)練,首先對(duì)一個(gè)預(yù)訓(xùn)練模型進(jìn)行隨機(jī)初始化,然后在特定領(lǐng)域語(yǔ)料庫(kù)上直接對(duì)小模型預(yù)訓(xùn)練。本文中,作者在 BERT 原始詞匯表、從零開(kāi)始詞匯和擴(kuò)展詞匯上進(jìn)行預(yù)訓(xùn)練。
Distill-then-adapt:我們首先使用 MiniLM 中任務(wù)獨(dú)立的知識(shí)蒸餾將 BERT 模型蒸餾稱一個(gè)小模型,然后用 MiniLM 對(duì)小模型初始化,并用 BERT 原始詞匯和擴(kuò)展詞匯對(duì)模型進(jìn)行持續(xù)訓(xùn)練。
Adapt-then-distill:我們選擇不同的大模型作為teacher模型,例如 BERT 和不同詞匯量的大模型。首先將這些模型適應(yīng)到特定領(lǐng)域,然后利用 MiniLM 將其壓縮為小模型。
Adapt-and-distill:在前面的方法中,在進(jìn)行知識(shí)蒸餾時(shí),我們對(duì) student 模型進(jìn)行隨機(jī)初始化。為了得到更好的特定領(lǐng)域的小模型,作者在本文嘗試探索了初始化 student 模型的影響。在該方法中,我們分別將大模型和小模型適應(yīng)到特定領(lǐng)域,然后使用這兩個(gè)模型分別初始化 teacher 模型和 student 模型。
4.2 Domain Adaptation
AdaLM 為預(yù)訓(xùn)練語(yǔ)言模型提供了一個(gè)簡(jiǎn)單有效的域適應(yīng)框架,其輸入為通用預(yù)訓(xùn)練語(yǔ)言模型、原始詞匯、特定領(lǐng)域的語(yǔ)料庫(kù)。通過(guò)詞匯擴(kuò)展和持續(xù)的預(yù)訓(xùn)練,AdaLM 將一般模型適應(yīng)于特定領(lǐng)域。該域適應(yīng) pipeline 包含以下三個(gè)部分:
● 詞匯擴(kuò)展:給定原始詞匯和特定領(lǐng)域語(yǔ)料庫(kù)的情況下,使用特定領(lǐng)域的子詞單位或術(shù)語(yǔ)來(lái)擴(kuò)充原始詞匯。本文中,我們從目標(biāo)域中增加特定域的詞匯表,同時(shí)保持原始 BERT 詞匯表不變。
●?由于詞匯表大小已經(jīng)改變,我們不能直接使用 BERT 初始化模型。如圖 3,我們使用 BERT 權(quán)重初始化原始 embedding 和 transformer 編碼器。對(duì)于增量詞匯表,我們首先用原始詞匯表將其標(biāo)記為子詞匯,然后使用其子詞 embedding 的平均池化結(jié)果來(lái)初始化。舉例:'lymphoma'一詞不在 BERT 的詞匯表中,我們將其劃分為三個(gè)子詞(lym,##pho,##ma),'lymphoma' 的 embedding 向量由 'lym','##pho','##ma' 三者 embedding 向量的平均值來(lái)初始化。
● 在模型初始化和數(shù)據(jù)預(yù)處理之后,我們利用掩碼語(yǔ)言模型損失,使用領(lǐng)域?qū)S谜Z(yǔ)料庫(kù)對(duì)模型持續(xù)預(yù)訓(xùn)練。(掩碼預(yù)測(cè)與 BERT 保持一致)
4.3 Vocabulary Expansion
這是 AdaLM 的核心模塊。它增強(qiáng)了領(lǐng)域特定術(shù)語(yǔ)或子詞單元來(lái)更好地利用領(lǐng)域知識(shí)。增量詞匯量是詞匯擴(kuò)展的一個(gè)重要參數(shù),本文作者引入了一個(gè)語(yǔ)料庫(kù)出現(xiàn)概率作為度量,來(lái)自動(dòng)優(yōu)化增量詞匯大小。我們假設(shè)每個(gè)子詞獨(dú)立出現(xiàn),為語(yǔ)料庫(kù)中的每個(gè)子詞分配一個(gè)與其在語(yǔ)料庫(kù)中出現(xiàn)頻率相等的概率:
則一個(gè)子詞序列 的概率為子詞出現(xiàn)概率 的乘積,我們將其轉(zhuǎn)換為對(duì)數(shù)形式 。
語(yǔ)料庫(kù)的概率為 :
我們從 PubMed 語(yǔ)料庫(kù)中采樣了 550k 個(gè)句子并且計(jì)算了不同詞匯量下的出現(xiàn)概率 。
通過(guò)比較 BERT 和 PubMedBERT 詞匯表出現(xiàn)的概率,我們發(fā)現(xiàn)在生物醫(yī)學(xué)領(lǐng)域, 呈對(duì)數(shù)趨勢(shì)增加,詞匯量達(dá)到 70k 后影響不大。PubMedBERT 詞匯表的表現(xiàn)與 40k 大小詞匯表類似。
作者采用一種簡(jiǎn)單的方法來(lái)確定增量詞匯量的大小。即計(jì)算每一時(shí)刻下的語(yǔ)料庫(kù)概率 ,當(dāng)增長(zhǎng)率 小于閾值 時(shí),則將 i 時(shí)刻的詞匯量視為最終的詞匯量。
使用此種算法進(jìn)行特定領(lǐng)域的詞匯擴(kuò)展。最終得到的生物醫(yī)學(xué)領(lǐng)域擴(kuò)展詞匯量為 60k,計(jì)算機(jī)科學(xué)領(lǐng)域擴(kuò)展詞匯量為 50k。
Experiment Details
本文實(shí)驗(yàn)在生物醫(yī)學(xué)和計(jì)算機(jī)科學(xué)兩個(gè)領(lǐng)域上進(jìn)行。
5.1 Datasets
● Domain corpus:
生物醫(yī)學(xué)領(lǐng)域,我們從 PubMed 摘要中收集了 16GB 語(yǔ)料來(lái)適應(yīng)我們的模型。使用最新的集合,使用與 PubMedBERT 相同的方法對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理。
計(jì)算機(jī)科學(xué)領(lǐng)域,使用 arXiv 數(shù)據(jù)集中的摘要文本,選取了計(jì)算機(jī)科學(xué)類的摘要,共收集了 300M 條。
● Fine-tuning tasks:
生物醫(yī)學(xué)領(lǐng)域,我們選擇了三個(gè)任務(wù):命名實(shí)體識(shí)別(NER)、循證醫(yī)學(xué)信息提取(PICO)、關(guān)系提取(RE)。我們?cè)?NER 任務(wù)中執(zhí)行實(shí)體級(jí)的 F1,在 PICO 任務(wù)中執(zhí)行詞級(jí)的 macro-F1,RE 任務(wù)使用正樣本類別評(píng)價(jià)的 micro-F1。
計(jì)算機(jī)科學(xué)領(lǐng)域,我們對(duì)兩個(gè)分類的下游任務(wù)進(jìn)行微調(diào)。ACL-ARC 數(shù)據(jù)集主要側(cè)重于分析科學(xué)工作如何通過(guò)不同類型的引文構(gòu)建其貢獻(xiàn)。SCIERC 數(shù)據(jù)集包括對(duì)科學(xué)實(shí)體及其關(guān)系的注釋和共參聚類。
5.2 Implementation
使用未封裝的 BERT-BASE 作為大模型(12 層,768 隱藏維度),MiniLM 作為小模型(6 層,384 隱藏維度)。
本文利用 MiniLM 來(lái)壓縮大模型,并且遵循 MiniLM 的設(shè)置。對(duì)于生物醫(yī)學(xué)任務(wù),遵循 PubMedBERT 的設(shè)置來(lái)微調(diào)三個(gè)任務(wù)。對(duì)于計(jì)算機(jī)科學(xué)任務(wù),遵循 Gururangan 等人研究的設(shè)置。
5.3 Results
作者有三個(gè)發(fā)現(xiàn):
1、領(lǐng)域特定詞匯在領(lǐng)域特定任務(wù)中起著重要作用,使用一般詞匯進(jìn)行詞匯擴(kuò)展后比僅使用領(lǐng)域特定詞匯更好。
作者觀察到,通過(guò)擴(kuò)大詞匯量,無(wú)論是大模型還是小模型,結(jié)果都有所改善。
對(duì)于大模型,AdaLM 在每個(gè)領(lǐng)域下都取得了最好的結(jié)果。
對(duì)于小模型,在生物醫(yī)學(xué)領(lǐng)域,無(wú)論是從零開(kāi)始訓(xùn)練還是 distill-then-adapt,增加詞匯(AdaLM vocab)的模型都比一般詞匯(BERT vocab)的模型或只有領(lǐng)域特定詞匯(PubMed vocab)的模型性能更好。此外,可以注意到使用 Distill-then-Adapt 策略的模型f性能已經(jīng)超越了 BERT 的性能。
在計(jì)算機(jī)科學(xué)領(lǐng)域,采用增量詞匯的 distill-then-adapt 模型也表現(xiàn)出很好的性能。其中還可以注意到,從零開(kāi)始訓(xùn)練時(shí),增加詞匯量的模型 b 比普通模型 a 的結(jié)果低,這可能是因?yàn)樵~匯量擴(kuò)大后,從頭開(kāi)始訓(xùn)練的模型需要使用更多的未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè)。
2、用一般的語(yǔ)言模型對(duì)領(lǐng)域特定文本進(jìn)行連續(xù)的預(yù)訓(xùn)練比從頭開(kāi)始進(jìn)行預(yù)訓(xùn)練效果更好。
在本文實(shí)驗(yàn)中,發(fā)現(xiàn)一般領(lǐng)域模型可以幫助我們的模型更好地學(xué)習(xí)到目標(biāo)領(lǐng)域。在生物醫(yī)學(xué)領(lǐng)域,在 distill-then-adapt 策略中使用 MiniLM 模型對(duì)模型 d、e、f 進(jìn)行了初始化。無(wú)論使用哪種詞匯,對(duì)一般語(yǔ)言模型在領(lǐng)域特定詞匯上進(jìn)行持續(xù)預(yù)訓(xùn)練都比從零開(kāi)始預(yù)訓(xùn)練效果要好。另一方面,對(duì)于沒(méi)有大量未標(biāo)記文本的領(lǐng)域,比如計(jì)算機(jī)科學(xué)領(lǐng)域,持續(xù)預(yù)訓(xùn)練也表現(xiàn)出了更好的效果。d 比 b、c 要更好。
3、Adapt-and-Distill 是開(kāi)發(fā)一個(gè)任務(wù)獨(dú)立、特定領(lǐng)域的小型預(yù)訓(xùn)練模型的最佳策略。
在 Adapt-then-Distill 部分,驗(yàn)證了之前研究的的結(jié)論:好的 teacher 模型可以產(chǎn)生好的 student 模型。采用大模型中表現(xiàn)最好的 AdaLM 模型作為 teacher,在生物醫(yī)學(xué)領(lǐng)域和計(jì)算機(jī)科學(xué)領(lǐng)域取得了很好的結(jié)果,優(yōu)于其他特定領(lǐng)域的大模型。
此外,我們發(fā)現(xiàn)一個(gè)更好的初始化 student 模型也有助于得到一個(gè)更好的小模型。在 Adapt-and-Distill 部分,我們分別對(duì)大模型和小模型進(jìn)行自適應(yīng),然后以自適應(yīng)的大模型為 teacher,使用自適應(yīng)的小模型進(jìn)行初始化,對(duì)大模型進(jìn)行壓縮。在生物醫(yī)學(xué)領(lǐng)域,由模型 f 初始化的模型j在小模型中取得了最佳的結(jié)果,而且比 BERT 模型還要好。在計(jì)算機(jī)科學(xué)領(lǐng)域,由模型 d 初始化的模型 g 是唯一的比 BERT 性能更好的小模型。
5.4 Analysis
5.4.1 Inference Speed
比較 AdaLM 和 BERT 模型在生物醫(yī)學(xué)領(lǐng)域的參數(shù)量大小和推理速度。
首先可以發(fā)現(xiàn)詞匯擴(kuò)展對(duì)模型推理速度有著一定程度的改善。我們?cè)谑褂?AdaLM 詞匯的大模型中增加了 embedding 權(quán)重中大約 20M 的參數(shù),但其推理速度比 BERT 和 PubMedBERT 略快。這是因?yàn)榇蟛糠诸I(lǐng)域特定的術(shù)語(yǔ)被分解成碎片子詞,因此使用增量詞匯表得到的 token 序列長(zhǎng)度小于使用原始詞匯表得到的序列長(zhǎng)度,這就減小了計(jì)算量。同時(shí),在嵌入層中,模型只需要將子詞的 id 映射到它們的稠密表示中,這不受參數(shù)量的影響。小模型也表現(xiàn)出了同樣的現(xiàn)象。
此外,小模型 AdaLM 表現(xiàn)出了巨大的潛力。與包含 768 個(gè)隱藏維度的 12 層大模型相比,包含 384 個(gè)隱藏維度的 6 層小模型的模型大小縮小了 3.3 倍,效率提高了 5.1 倍,但其性能與 BERT-BASE 相似甚至更好。
5.4.2 Impact of Training Time
本節(jié)作者通過(guò)計(jì)算域適應(yīng)后的模型訓(xùn)練時(shí)間來(lái)檢驗(yàn)?zāi)P托阅堋R驗(yàn)樯镝t(yī)學(xué)領(lǐng)域有著豐富的無(wú)標(biāo)記文本,所以作者將特定領(lǐng)域的適應(yīng)大模型與 BioBERT 進(jìn)行對(duì)比。每經(jīng)過(guò) 24 小時(shí)連續(xù)的預(yù)訓(xùn)練,就會(huì)在下游任務(wù)對(duì)適應(yīng)模型進(jìn)行調(diào)整。表 6 中 AdaLM 代表大型適應(yīng)模型,訓(xùn)練時(shí)間 0 小時(shí)的 AdaLM 代表直接微調(diào)初始化的模型,而沒(méi)有任何持續(xù)的預(yù)訓(xùn)練。
我們發(fā)現(xiàn),BERT 略優(yōu)于 0 小時(shí)的 AdaLM,但 24 小時(shí)后 AdaLM 的表現(xiàn)優(yōu)于 BioBERT,這表明領(lǐng)域特定詞匯對(duì)預(yù)訓(xùn)練模型的領(lǐng)域適應(yīng)至關(guān)重要。該實(shí)驗(yàn)表現(xiàn)了模型在生物醫(yī)學(xué)領(lǐng)域的優(yōu)秀性能。而且在限制計(jì)算條件下,AdaLM 也表現(xiàn)出了比 BioBERT 更好的性能。
5.4.3 Impact of Vocabulary Size
作者在生物醫(yī)學(xué)領(lǐng)域進(jìn)行了不同詞匯量的實(shí)驗(yàn),選用生物醫(yī)學(xué)領(lǐng)域的 AdaLM 大模型。
可以觀察到?60k 詞匯量的模型在消融研究中取得了最好的結(jié)果。令人驚訝的是,盡管擁有更大的詞匯表,但 70k 和 80k 的模型并沒(méi)有表現(xiàn)出更強(qiáng)的性能。對(duì)此一種可能的解釋是,更大的詞匯集可能包含一些更復(fù)雜但使用頻率較低的詞匯,這些詞匯不能通過(guò)持續(xù)的預(yù)訓(xùn)練很好地學(xué)習(xí)。
例如:“ferrocytochrome” 包含在 70k、80k 規(guī)模的詞匯表中,但是其在 60k 詞匯表中被分割為(‘ferrocy’,‘##tochrom’,‘##e’),在采樣數(shù)據(jù)中 ‘ferrocytochrome’ 出現(xiàn)次數(shù)少于 100 詞,但是子詞 ‘##tochrom’ 出現(xiàn)超過(guò) 10k 次,‘ferrocy’ 出現(xiàn)超過(guò) 200 次。由于這種稀疏性的原因,這些生僻詞的表示就不能很好地學(xué)習(xí)到。
5.4.4 Vocabulary Visualization
與只使用領(lǐng)域特定詞匯表、隨機(jī)初始化的模型 PubMedBERT 相比,保持通用詞匯表和通用語(yǔ)言模型的權(quán)重有助于我們更好地利用已有知識(shí)和 word embedding。
因此為了評(píng)估擴(kuò)展詞匯的重要性,作者在生物醫(yī)學(xué)領(lǐng)域的 AdaLM 模型中計(jì)算了預(yù)訓(xùn)練前后嵌入權(quán)值的 L2 距離。
我們觀察到領(lǐng)域特定詞匯在訓(xùn)練前發(fā)生了很大的變化,這表明本文模型學(xué)習(xí)了很多關(guān)于這些領(lǐng)域特定詞匯的信息。我們還觀察到許多原始子詞的嵌入權(quán)值變化不大,這表明許多通用詞匯可以直接用于持續(xù)訓(xùn)練。
Conclusion
在本文中,作者研究了將一般通用 BERT 模型壓縮到特定領(lǐng)域的幾種變體。本文實(shí)驗(yàn)表明,為獲得一個(gè)任務(wù)獨(dú)立的、用于特定領(lǐng)域的預(yù)訓(xùn)練模型,最佳策略是將大模型和小模型分別適應(yīng)到特定的領(lǐng)域,然后以適應(yīng)的小模型初始化來(lái)壓縮適應(yīng)的大模型。本文結(jié)果表明,適應(yīng)后的 384 個(gè)隱藏維度的 6 層小模型性能優(yōu)于 BERT-BASE 模型,并且相比其模型小了 3.3 倍,快了 5.0 倍。
本文研究結(jié)果表明,領(lǐng)域特定詞匯和一般領(lǐng)域語(yǔ)言模型在預(yù)訓(xùn)練模型的域適應(yīng)中起著重要作用。在未來(lái)的研究中,領(lǐng)域適應(yīng)中的其它問(wèn)題還值得進(jìn)一步的研究,如數(shù)據(jù)選擇和有效適應(yīng)等。
目前對(duì)于 Domain Adaptation 的研究方法主要可分為三類:Model-centric、Data-centric 和融合前兩者的 Hybrid 方法。在這篇文章中,作者主要關(guān)注了模型架構(gòu)、特征空間增強(qiáng)、數(shù)據(jù)選擇、預(yù)訓(xùn)練技術(shù)等問(wèn)題,簡(jiǎn)單地融合了 Model-centric 和 Data-centric 方法,驗(yàn)證了有效進(jìn)行域適應(yīng)的一些策略。
總體來(lái)講本文雖然沒(méi)有提出新穎的復(fù)雜模型,但是對(duì)于 NLP 中域適應(yīng)問(wèn)題的研究還是一個(gè)值得關(guān)注的方向的。此外由于在實(shí)際應(yīng)用中,不僅目標(biāo)域中的數(shù)據(jù)是沒(méi)有標(biāo)注的,甚至在源域中收集標(biāo)簽都很困難,因此 few-shot unsupervised domain adaptation 問(wèn)題也值得進(jìn)一步研究。
參考文獻(xiàn)
[1] Ramponi A, Plank B. Neural Unsupervised Domain Adaptation in NLP---A Survey[J]. arXiv preprint arXiv:2006.00632, 2020.
[2] Yue X, Zheng Z, Zhang S, et al. Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 13834-13844.
[3] Yao Y, Huang S, Wang W, et al. Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains[J]. arXiv preprint arXiv:2106.13474, 2021.
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的微软提出AdaLM,用于开发小型、快速且有效的领域预训练语言模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 重庆小面到底是啥?
- 下一篇: 重庆小面的配料?有什么配方吗