论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models
論文筆記整理:王春培,天津大學(xué)碩士。
? ? ? ?鏈接:https://arxiv.org/pdf/1911.04118.pdf
動(dòng)機(jī)
這篇文章聚焦的是問答系統(tǒng)(Q&A)中的一個(gè)問題:回答句子選擇(Answer Sentence Selection,AS2),給定一個(gè)問題和一組候選答案句子,選擇出正確回答問題的句子(例如,由搜索引擎檢索)。AS2 是目前虛擬客服中普遍采用的技術(shù),例如 Google Home、Alexa、Siri 等,即采用搜索引擎+AS2 的模式。
亮點(diǎn)
BERT的亮點(diǎn)主要包括:
(1)提出一種基于變壓器(Transformer-based)的 AS2 模型,為解決 AS2 的數(shù)據(jù)稀缺性問題和精調(diào)步驟的不穩(wěn)定性提供了有效的解決方案。
(2)構(gòu)建了一個(gè)應(yīng)用于 AS2 的數(shù)據(jù)庫 ASNQ(Answer Sentence Natural Questions)。
概念及模型
本文提出了一種用于自然語言任務(wù)的預(yù)訓(xùn)練變換模型精調(diào)的有效技術(shù)-TANDA( Transfer AND Adapt)。首先通過使用一個(gè)大而高質(zhì)量的數(shù)據(jù)集對(duì)模型進(jìn)行精調(diào),將一個(gè)預(yù)先訓(xùn)練的模型轉(zhuǎn)換為一個(gè)用于一般任務(wù)的模型。然后,執(zhí)行第二個(gè)精調(diào)步驟,以使傳輸?shù)哪P瓦m應(yīng)目標(biāo)域
?
模型體系結(jié)構(gòu)
TANDA 架構(gòu)如下圖所示(以BERT為例):
? ? ? ? ? ? ?
?
AS2任務(wù):
給定問題 q 和答案句子庫 S={s1,...,sn},AS2 任務(wù)目的是找到能夠正確回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神經(jīng)網(wǎng)絡(luò)模型計(jì)算 p(q,s_i)。
?
變壓器模型?(Transformer Model)
變壓器模型的目的是捕獲單詞間的依賴關(guān)系,下圖為文本對(duì)分類任務(wù)的變壓器模型架構(gòu):
? ? ? ? ? ? ?
輸入包括兩條文本,由三個(gè)標(biāo)記 [CLS]、[SEP] 和 [EOS] 分隔。將根據(jù)令牌、段及其位置編碼的嵌入向量作為輸入,輸入到transformer模型中。輸出為嵌入向量 x,x 描述單詞、句子分段之間的依賴關(guān)系。將 x 輸入到全連接層中,輸出層用于最終的任務(wù)。
?
TANDA
在經(jīng)典的任務(wù)中,一般只針對(duì)目標(biāo)任務(wù)和域進(jìn)行一次模型精調(diào)。對(duì)于AS2,訓(xùn)練數(shù)據(jù)是由問題和答案組成的包含正負(fù)標(biāo)簽(答案是否正確回答了問題)的句子對(duì)。當(dāng)訓(xùn)練樣本數(shù)據(jù)較少時(shí),完成 AS2 任務(wù)的模型穩(wěn)定性較差,此時(shí)在新任務(wù)中推廣需要大量樣本來精調(diào)大量的變壓器參數(shù)。本文提出,將精調(diào)過程分為兩個(gè)步驟:轉(zhuǎn)移到任務(wù),然后適應(yīng)目標(biāo)域。
? ?首先,使用 AS2 的大型通用數(shù)據(jù)集完成標(biāo)準(zhǔn)的精調(diào)處理。這個(gè)步驟應(yīng)該將語言模型遷移到具體的 AS2 任務(wù)。由于目標(biāo)域的特殊性(AS2),所得到的模型在目標(biāo)域的數(shù)據(jù)上無法達(dá)到最佳性能,此時(shí)采用第二個(gè)精調(diào)步驟使分類器適應(yīng)目標(biāo)域。
?
ASNQ
本文構(gòu)建了一個(gè)專門適用于 AS2 任務(wù)的通用數(shù)據(jù)庫 ASNQ。ASNQ 基于經(jīng)典 NQ 語料庫建設(shè),NQ 是用于機(jī)器閱讀(Machine Reading,MR)任務(wù)的語料庫,其中每個(gè)問題與一個(gè) Wiki 頁面關(guān)聯(lián)。
實(shí)驗(yàn)
不同模型在WikiQA數(shù)據(jù)集上的性能如下圖所示:
? ? ? ? ? ? ?
?
不同模型在treco - qa數(shù)據(jù)集上的性能如下圖所示:
? ? ? ? ? ? ?
?
對(duì)于簡單的FT和TANDA, wiki - traindata上的MAP和MRR隨著微調(diào)次數(shù)的變化而變化,如下圖所示:
? ? ? ? ? ? ?
?
FT與TANDA在Alexa虛擬助手流量數(shù)據(jù)集上的比較如下圖所示:
? ? ? ? ? ? ?
?
總結(jié)
本文的工作將經(jīng)典的精調(diào)(fine-tuning)過程拆成了兩次,其中一次針對(duì)通用數(shù)據(jù)集,另一次針對(duì)目標(biāo)數(shù)據(jù)集,此外,還專門構(gòu)建了適用于AS2任務(wù)的通用數(shù)據(jù)集ASNQ。本文在兩個(gè)著名的實(shí)驗(yàn)基準(zhǔn)庫:WikiQA和TREC-QA上進(jìn)行實(shí)驗(yàn),分別達(dá)到了 92% 和 94.3% 的 MAP 分?jǐn)?shù),超過了近期獲得的 83.4% 和 87.5% 的最高分?jǐn)?shù)。本文還討論了 TANDA 在受不同類型噪聲影響的 Alexa 特定數(shù)據(jù)集中的實(shí)驗(yàn),確認(rèn)了 TANDA 在工業(yè)環(huán)境中的有效性。
?
?
OpenKG
開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于属性嵌入的知识图谱实体
- 下一篇: 会议交流 | IJCKG 2021 日程