论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models
論文筆記整理:王春培,天津大學(xué)碩士。
? ? ? ?鏈接:https://arxiv.org/pdf/1911.04118.pdf
動機
這篇文章聚焦的是問答系統(tǒng)(Q&A)中的一個問題:回答句子選擇(Answer Sentence Selection,AS2),給定一個問題和一組候選答案句子,選擇出正確回答問題的句子(例如,由搜索引擎檢索)。AS2 是目前虛擬客服中普遍采用的技術(shù),例如 Google Home、Alexa、Siri 等,即采用搜索引擎+AS2 的模式。
亮點
BERT的亮點主要包括:
(1)提出一種基于變壓器(Transformer-based)的 AS2 模型,為解決 AS2 的數(shù)據(jù)稀缺性問題和精調(diào)步驟的不穩(wěn)定性提供了有效的解決方案。
(2)構(gòu)建了一個應(yīng)用于 AS2 的數(shù)據(jù)庫 ASNQ(Answer Sentence Natural Questions)。
概念及模型
本文提出了一種用于自然語言任務(wù)的預(yù)訓(xùn)練變換模型精調(diào)的有效技術(shù)-TANDA( Transfer AND Adapt)。首先通過使用一個大而高質(zhì)量的數(shù)據(jù)集對模型進行精調(diào),將一個預(yù)先訓(xùn)練的模型轉(zhuǎn)換為一個用于一般任務(wù)的模型。然后,執(zhí)行第二個精調(diào)步驟,以使傳輸?shù)哪P瓦m應(yīng)目標(biāo)域
?
-
模型體系結(jié)構(gòu)
TANDA 架構(gòu)如下圖所示(以BERT為例):
? ? ? ? ? ? ?
?
-
AS2任務(wù):
給定問題 q 和答案句子庫 S={s1,...,sn},AS2 任務(wù)目的是找到能夠正確回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神經(jīng)網(wǎng)絡(luò)模型計算 p(q,s_i)。
?
-
變壓器模型?(Transformer Model)
變壓器模型的目的是捕獲單詞間的依賴關(guān)系,下圖為文本對分類任務(wù)的變壓器模型架構(gòu):
? ? ? ? ? ? ?
輸入包括兩條文本,由三個標(biāo)記 [CLS]、[SEP] 和 [EOS] 分隔。將根據(jù)令牌、段及其位置編碼的嵌入向量作為輸入,輸入到transformer模型中。輸出為嵌入向量 x,x 描述單詞、句子分段之間的依賴關(guān)系。將 x 輸入到全連接層中,輸出層用于最終的任務(wù)。
?
-
TANDA
在經(jīng)典的任務(wù)中,一般只針對目標(biāo)任務(wù)和域進行一次模型精調(diào)。對于AS2,訓(xùn)練數(shù)據(jù)是由問題和答案組成的包含正負(fù)標(biāo)簽(答案是否正確回答了問題)的句子對。當(dāng)訓(xùn)練樣本數(shù)據(jù)較少時,完成 AS2 任務(wù)的模型穩(wěn)定性較差,此時在新任務(wù)中推廣需要大量樣本來精調(diào)大量的變壓器參數(shù)。本文提出,將精調(diào)過程分為兩個步驟:轉(zhuǎn)移到任務(wù),然后適應(yīng)目標(biāo)域。
? ?首先,使用 AS2 的大型通用數(shù)據(jù)集完成標(biāo)準(zhǔn)的精調(diào)處理。這個步驟應(yīng)該將語言模型遷移到具體的 AS2 任務(wù)。由于目標(biāo)域的特殊性(AS2),所得到的模型在目標(biāo)域的數(shù)據(jù)上無法達(dá)到最佳性能,此時采用第二個精調(diào)步驟使分類器適應(yīng)目標(biāo)域。
?
-
ASNQ
本文構(gòu)建了一個專門適用于 AS2 任務(wù)的通用數(shù)據(jù)庫 ASNQ。ASNQ 基于經(jīng)典 NQ 語料庫建設(shè),NQ 是用于機器閱讀(Machine Reading,MR)任務(wù)的語料庫,其中每個問題與一個 Wiki 頁面關(guān)聯(lián)。
實驗
不同模型在WikiQA數(shù)據(jù)集上的性能如下圖所示:
? ? ? ? ? ? ?
?
不同模型在treco - qa數(shù)據(jù)集上的性能如下圖所示:
? ? ? ? ? ? ?
?
對于簡單的FT和TANDA, wiki - traindata上的MAP和MRR隨著微調(diào)次數(shù)的變化而變化,如下圖所示:
? ? ? ? ? ? ?
?
FT與TANDA在Alexa虛擬助手流量數(shù)據(jù)集上的比較如下圖所示:
? ? ? ? ? ? ?
?
總結(jié)
本文的工作將經(jīng)典的精調(diào)(fine-tuning)過程拆成了兩次,其中一次針對通用數(shù)據(jù)集,另一次針對目標(biāo)數(shù)據(jù)集,此外,還專門構(gòu)建了適用于AS2任務(wù)的通用數(shù)據(jù)集ASNQ。本文在兩個著名的實驗基準(zhǔn)庫:WikiQA和TREC-QA上進行實驗,分別達(dá)到了 92% 和 94.3% 的 MAP 分?jǐn)?shù),超過了近期獲得的 83.4% 和 87.5% 的最高分?jǐn)?shù)。本文還討論了 TANDA 在受不同類型噪聲影響的 Alexa 特定數(shù)據(jù)集中的實驗,確認(rèn)了 TANDA 在工業(yè)環(huán)境中的有效性。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【DP】K星人的语言(2020特长生 T
- 下一篇: 星座图(2020特长生 T4)