當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Back-Training: 用于问题生成和段落检索的全新领域自适应方法

發布時間：2024/10/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Back-Training: 用于问题生成和段落检索的全新领域自适应方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者?|?Maple小七

學校?|?北京郵電大學碩士生

研究方向?|?自然語言處理

本文提出了一種新的領域自適應方法：back-training，傳統的 self-training 生成的訓練數據的輸入是真實的，而輸出是生成的，back-training 生成的訓練數據的輸入是生成的，而輸出是真實的，作者通過實驗證明了相比于 self-training，back-training 生成的訓練數據可以在目標域上訓練出性能更好的模型。

論文標題：

Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval

論文鏈接：

https://arxiv.org/abs/2104.08801

代碼鏈接：

https://github.com/McGill-NLP/MLQuestions

引言

構建高質量的垂直領域問答模型往往需要大量的人工標注數據，然而垂直領域的問答對的標注成本通常是非常高的，常常需要標注人員具有一定的領域知識，因此如何借助遷移學習（Transfer Learning）或領域自適應（Domain adaption）的方法來減少甚至消除人工標注成本，在目標域上訓練出泛化能力更好的模型，是一個受到了廣泛關注的問題。

一種最常用的領域自適應方法是 self-training，其基本思路很簡單，就是先在標注數據豐富的源域（source domain）上訓練可以為目標域（target domain）生成標注數據的模型，然后用該模型為目標域生成訓練數據（synthetic data），最后在這些生成的訓練數據上訓練我們想要的模型。為了提升生成數據的質量，通常還會加上一致性檢查（consistency check）和迭代優化（iterative refinement）的訓練技巧。

Back-training

然而遷移學習的效果往往差強人意，self-training 生成的數據并不一定能夠在目標域上訓練出足夠優秀的模型，本文提出了一種新的領域自適應方法：back-training，該方法的思想和機器翻譯中的 back-translation 很相似。

相比于 self-training，back-training 對目標域的無監督數據是有要求的，具體來說，假設我們希望在目標域上訓練出一個問題生成模型，那么 self-training 只要求目標域數據包含段落（paragraphs）就行了，而 back-training 要求目標域數據不僅要有段落，還要有問題，但段落和問題并不需要對齊。

這樣的假設在實際應用中是很常見的，在一些垂直領域上，段落和問題都相對容易獲得，但對齊的段落和問題卻很難獲得，如果想要人工標注對齊的話，通常需要很強的領域知識。

本文重點關注問題生成（question generation）和段落檢索（passage retrieval）任務，設源域數據集為，目標域數據集為和，注意和是沒有對齊的，任務目標是學習出可以在目標域上表現良好的問題生成（QG）模型和段落檢索（IR）模型的參數。

以問題生成任務為例，self-training 和 back-training 的訓練過程分別是：

self-training：首先在源域上訓練一個問題生成模型，然后用該模型為目標域的段落生成問題，最后用生成的來微調得到最終的問題生成模型。
back-training：首先在源域上訓練一個段落檢索模型，然后用該模型為目標域的問題檢索段落，最后用生成的來微調得到最終的問題生成模型。

我們可以發現 self-training 生成的數據為，而 back-training 生成的數據為，也就是說 self-training 生成的輸入是真實的，但輸出是有噪聲的，而 back-training 生成的輸入是有噪聲的，但輸出是真實的。直觀來看，輸出的真實性比輸入的真實性更為重要，因為輸出直接影響著后續的評估指標。

下面的訓練流程更清晰地展現了 self-training 和 back-training 的差異。

實驗

接下來，作者通過一個具體的任務來驗證了 back-training 相比于 self-training 的優越性。

3.1 數據集

源域數據集采用的是通用領域的 NaturalQuestions 數據集，目標域數據集采用的是作者自制的 MLQuestions 數據集，該數據集包含 35000 條采自 Google Search 的機器學習領域的問題和 50000 個采自 Wikipedia 的機器學習領域的段落，數據采集過程可參考原文。

從下表我們可以看出，這兩個數據集的分布是相當不同的，因此想用無監督的方法在目標域上訓練 QG 或 IR 模型是具有一定的挑戰性的。

3.2?模型

問題生成模型采用 BART，段落檢索模型采用 DPR，這兩個模型不用作過多介紹。

3.3 結果

3.3.1 Transfer from Source to Target Domain without Adaptation

如果直接將在 NaturalQuestions 數據集（IID）上訓練的模型用到 MLQuestions 數據集（OOD）上，對應的評估指標通常會掉一大半。

3.3.2?No-adaptation vs self-training vs back-training

下表展示了三種不同的訓練策略給出的模型表現，可以發現 back-training 比起 self-training 有明顯的性能提升。

3.3.3?Qualitative analysis of self-training and back-training

下圖展示了訓練過程中模型從源域遷移至目標域時，在生成數據集和測試數據集上生成問題的困惑度變化曲線，對于 back-training，模型在生成數據集和測試數據集上的困惑度是成正比的，即 back-training 生成的數據和目標域的真實分布更加接近，而 self-training 雖然在生成數據集上取得了較低的困惑度，但在測試數據集上的困惑度反而變高了，這說明 self-training 生成的數據集和真實分布不一樣，生成數據的分布更偏向于源域，因此產生了過擬合。

下圖展示了 self-training 和 back-training 生成數據的置信度分布，可以發現 back-training 生成的數據具有低均值，高方差的特點，這表明生成的數據更富有多樣性，而 self-training 生成的數據則缺少多樣性。

3.3.4?Consistency filters for Self-Training and Back-Training

在 self-training 中，人們通常會設置一個判別模型來過濾掉低置信度的生成樣本。作者嘗試了兩種過濾策略：

Self-Consistency：生成模型和判別模型是同一個模型，即過濾掉生成置信度較低的樣本；
Cross-Consistency：生成模型和判別模型不同，比如用額外的 QA 模型來判斷 QG 模型生成的 QA 對是否一致，該策略其實就是兩年前谷歌提出的 roundtrip consistency。

由于問題生成和段落檢索是對偶任務，因此這兩種過濾策略其實可以結合起來，再加上常用的 bootstrap 迭代優化，就形成了下圖所示的訓練流程：

3.3.5?Are consistency filters useful?

加入一致性過濾能帶來一定的效果提升，但目前實驗結果還不完整。

3.3.6?Is iterative refinement useful?

迭代優化的訓練過程對 back-training 是有用的，但是對self-training的作用不明顯。

3.3.7?Human Evaluation Results

作者也采用了人工評估的方式來評估不同訓練方法的效果，如下表所示，back-training 在各個評估維度上都有所改進。

3.3.8?Analysis of Question Types

源域和目標域的問題類別分布是不一樣的，從下圖我們可以發現模型生成了很多 Description 類的問題，較少地生成了 Explanation 和 Preference 類問題，這和 NaturalQuestions 數據集和 MLQuestions 數據集的分布差異是強相關的。

結論

back-training 利用到了問題生成任務和段落檢索任務之間的對偶性質，這樣的對偶任務其實并不少見，比如圖像問題生成（Visual Question Generation）和圖像檢索（Image Retrieval）也適用于 back-training，直觀上來說，back-training 相比于 self-training 引入了更多的信息，因此效果遠比 self-training 好，不過這些結論依舊缺乏更嚴謹的理論分析。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

?????稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

?????投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的Back-Training: 用于问题生成和段落检索的全新领域自适应方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：房产证加配偶名字需要什么条件（房产证加配
下一篇：企业年金辞职能取吗这个钱是不容易拿到的