Back-Training: 用于问题生成和段落检索的全新领域自适应方法
?PaperWeekly 原創 ·?作者?|?Maple小七
學校?|?北京郵電大學碩士生
研究方向?|?自然語言處理
本文提出了一種新的領域自適應方法:back-training,傳統的 self-training 生成的訓練數據的輸入是真實的,而輸出是生成的,back-training 生成的訓練數據的輸入是生成的,而輸出是真實的,作者通過實驗證明了相比于 self-training,back-training 生成的訓練數據可以在目標域上訓練出性能更好的模型。
論文標題:
Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval
論文鏈接:
https://arxiv.org/abs/2104.08801
代碼鏈接:
https://github.com/McGill-NLP/MLQuestions
引言
構建高質量的垂直領域問答模型往往需要大量的人工標注數據,然而垂直領域的問答對的標注成本通常是非常高的,常常需要標注人員具有一定的領域知識,因此如何借助遷移學習(Transfer Learning)或領域自適應(Domain adaption)的方法來減少甚至消除人工標注成本,在目標域上訓練出泛化能力更好的模型,是一個受到了廣泛關注的問題。
一種最常用的領域自適應方法是 self-training,其基本思路很簡單,就是先在標注數據豐富的源域(source domain)上訓練可以為目標域(target domain)生成標注數據的模型,然后用該模型為目標域生成訓練數據(synthetic data),最后在這些生成的訓練數據上訓練我們想要的模型。為了提升生成數據的質量,通常還會加上一致性檢查(consistency check)和迭代優化(iterative refinement)的訓練技巧。
Back-training
然而遷移學習的效果往往差強人意,self-training 生成的數據并不一定能夠在目標域上訓練出足夠優秀的模型,本文提出了一種新的領域自適應方法:back-training,該方法的思想和機器翻譯中的 back-translation 很相似。
相比于 self-training,back-training 對目標域的無監督數據是有要求的,具體來說,假設我們希望在目標域上訓練出一個問題生成模型 ,那么 self-training 只要求目標域數據包含段落(paragraphs) 就行了,而 back-training 要求目標域數據不僅要有段落 ,還要有問題 ,但段落和問題并不需要對齊。
這樣的假設在實際應用中是很常見的,在一些垂直領域上,段落和問題都相對容易獲得,但對齊的段落和問題卻很難獲得,如果想要人工標注對齊的話,通常需要很強的領域知識。
本文重點關注問題生成(question generation)和段落檢索(passage retrieval) 任務,設源域數據集為 ,目標域數據集為 和 ,注意 和 是沒有對齊的,任務目標是學習出可以在目標域上表現良好的問題生成(QG)模型和段落檢索(IR)模型的參數 。
以問題生成任務為例,self-training 和 back-training 的訓練過程分別是:
self-training:首先在源域上訓練一個問題生成模型 ,然后用該模型為目標域的段落 生成問題 ,最后用生成的 來微調 得到最終的問題生成模型 。
back-training:首先在源域上訓練一個段落檢索模型 ,然后用該模型為目標域的問題 檢索段落 ,最后用生成的 來微調 得到最終的問題生成模型 。
我們可以發現 self-training 生成的數據為 ,而 back-training 生成的數據為 ,也就是說 self-training 生成的輸入是真實的,但輸出是有噪聲的,而 back-training 生成的輸入是有噪聲的,但輸出是真實的。直觀來看,輸出的真實性比輸入的真實性更為重要,因為輸出直接影響著后續的評估指標。
下面的訓練流程更清晰地展現了 self-training 和 back-training 的差異。
實驗
接下來,作者通過一個具體的任務來驗證了 back-training 相比于 self-training 的優越性。
3.1 數據集
源域數據集采用的是通用領域的 NaturalQuestions 數據集,目標域數據集采用的是作者自制的 MLQuestions 數據集,該數據集包含 35000 條采自 Google Search 的機器學習領域的問題和 50000 個采自 Wikipedia 的機器學習領域的段落,數據采集過程可參考原文。
從下表我們可以看出,這兩個數據集的分布是相當不同的,因此想用無監督的方法在目標域上訓練 QG 或 IR 模型是具有一定的挑戰性的。
3.2?模型
問題生成模型 采用 BART,段落檢索模型 采用 DPR,這兩個模型不用作過多介紹。
3.3 結果
3.3.1 Transfer from Source to Target Domain without Adaptation
如果直接將在 NaturalQuestions 數據集(IID)上訓練的模型用到 MLQuestions 數據集(OOD)上,對應的評估指標通常會掉一大半。
3.3.2?No-adaptation vs self-training vs back-training
下表展示了三種不同的訓練策略給出的模型表現,可以發現 back-training 比起 self-training 有明顯的性能提升。
3.3.3?Qualitative analysis of self-training and back-training
下圖展示了訓練過程中模型從源域遷移至目標域時,在生成數據集和測試數據集上生成問題的困惑度變化曲線,對于 back-training,模型在生成數據集和測試數據集上的困惑度是成正比的,即 back-training 生成的數據和目標域的真實分布更加接近,而 self-training 雖然在生成數據集上取得了較低的困惑度,但在測試數據集上的困惑度反而變高了,這說明 self-training 生成的數據集和真實分布不一樣,生成數據的分布更偏向于源域,因此產生了過擬合。
下圖展示了 self-training 和 back-training 生成數據的置信度分布,可以發現 back-training 生成的數據具有低均值,高方差的特點,這表明生成的數據更富有多樣性,而 self-training 生成的數據則缺少多樣性。
3.3.4?Consistency filters for Self-Training and Back-Training
在 self-training 中,人們通常會設置一個判別模型來過濾掉低置信度的生成樣本。作者嘗試了兩種過濾策略:
Self-Consistency:生成模型和判別模型是同一個模型,即過濾掉生成置信度較低的樣本;
Cross-Consistency:生成模型和判別模型不同,比如用額外的 QA 模型來判斷 QG 模型生成的 QA 對是否一致,該策略其實就是兩年前谷歌提出的 roundtrip consistency。
由于問題生成和段落檢索是對偶任務,因此這兩種過濾策略其實可以結合起來,再加上常用的 bootstrap 迭代優化,就形成了下圖所示的訓練流程:
3.3.5?Are consistency filters useful?
加入一致性過濾能帶來一定的效果提升,但目前實驗結果還不完整。
3.3.6?Is iterative refinement useful?
迭代優化的訓練過程對 back-training 是有用的,但是對self-training的作用不明顯。
3.3.7?Human Evaluation Results
作者也采用了人工評估的方式來評估不同訓練方法的效果,如下表所示,back-training 在各個評估維度上都有所改進。
3.3.8?Analysis of Question Types
源域和目標域的問題類別分布是不一樣的,從下圖我們可以發現模型生成了很多 Description 類的問題,較少地生成了 Explanation 和 Preference 類問題,這和 NaturalQuestions 數據集和 MLQuestions 數據集的分布差異是強相關的。
結論
back-training 利用到了問題生成任務和段落檢索任務之間的對偶性質,這樣的對偶任務其實并不少見,比如圖像問題生成(Visual Question Generation)和圖像檢索(Image Retrieval)也適用于 back-training,直觀上來說,back-training 相比于 self-training 引入了更多的信息,因此效果遠比 self-training 好,不過這些結論依舊缺乏更嚴謹的理論分析。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的Back-Training: 用于问题生成和段落检索的全新领域自适应方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 房产证加配偶名字需要什么条件(房产证加配
- 下一篇: 企业年金辞职能取吗 这个钱是不容易拿到的