ACL 2021 | SimCLS: 概念简单但足够有效的对比学习摘要生成框架
?PaperWeekly 原創 ·?作者?|?Maple小七
學校?|?北京郵電大學碩士生
研究方向?|?自然語言處理
作者提出了一個概念簡單但足夠有效的摘要生成框架:SimCLS,在當前的 SOTA 摘要生成模型(BART、Pegasus)基礎上,SimCLS 在生成模型之后加上了一個無參考摘要的候選摘要打分模型,該打分模型的訓練采用了對比學習的思想。SimCLS 可以緩解 Seq2Seq 框架固有的目標函數和評價指標不一致的問題,從而可以從模型生成的候選摘要中篩選出真實的評價指標(ROUGE)打分更高的摘要。
論文標題:
SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization
論文鏈接:
https://arxiv.org/abs/2106.01890
代碼鏈接:?
https://github.com/yixinL7/SimCLS
Introduction
當前的 Seq2Seq 模型通常在極大似然估計(MLE)的框架下以 teacher-forcing 的方式得到訓練,眾所周知,Seq2Seq 存在著目標函數與評價指標不一致的問題,因為目標函數計算的是局部的,token 級別的損失,而 ROUGE 這類評價指標會計算參考摘要和模型生成的摘要整體上的相似性。
另外,Seq2Seq 模型本身的訓練和測試階段也是不一致的,在測試階段,模型需要以自回歸的方式生成摘要,因此生成過程存在錯誤累加的問題,這個問題也被廣泛地稱為曝光偏差(exposure bias)問題。
前人針對 Seq2Seq 模型存在的這些問題提出了一些解決方法,目前主要有下面的幾種策略:
Reinforcement Learning: 通過基于全局預測的獎勵(rewards)直接優化評價指標,減輕訓練和測試的不一致性。雖然強化學習可以直接優化不可導的評價指標,但這又引入了很多強化學習本身存在的問題,比如梯度估計的噪聲會導致模型對超參敏感以及訓練過程的不穩定性。
Minimum Risk Training: 雖然可以直接優化評估指標,但估計損失的精度依舊得不到保障。
Structured Prediction: 將先驗的句子級損失與 MLE 損失結合起來,雖然可以緩解 MLE 訓練的局限性,但評價指標和目標函數之間的關系依舊是不明確,不直觀的。
在本文中,作者引入了一種基于對比學習的打分模型,該模型通過訓練無參考摘要的打分模型來近似需要參考摘要的評價指標,直接學習評價指標本身的打分模式。值得注意的是,雖然已經有一些相關工作提出了可以為 MLE 損失引入對比損失增強模型表現,但作者選擇將對比損失和 MLE 損失解耦,形成了一個兩階段結構的模型。
Contrastive Learning Framework for Abstractive Summarization
SimCLS 的思路很直觀,首先,我們預訓練一個基于 MLE 損失的 Seq2Seq 摘要生成模型,然后建立一個基于對比損失的打分模型為生成的候選摘要排序,通過分開優化生成模型和評價模型,我們能夠以有監督的方式訓練這兩個模型,避免了復雜的強化學習方式。
具體來說,給定原文檔 和對應的參考摘要 ,生成式摘要模型 的目標是生成候選摘要 ,使得評價指標 給出的分數 盡可能高。在這個過程中,我們將模型分解成兩部分:生成模型 和評價模型 ,前者負責生成候選摘要,后者負責打分并選擇最優候選摘要。
Candidate Generation: 在訓練階段,生成模型 最大化文檔 對應的參考摘要 的似然度,然后通過 Beam Search 生成多個候選摘要 。
Reference-free Evaluation: 針對文檔 ,一個更好的候選摘要 應該獲得更高的打分,我們可以建立一個評價模型 ,其目標是為 生成的候選摘要 打分:,最后模型輸出的摘要 為獲得最高分的候選摘要:
這里,我們將 初始化為預訓練模型 RoBERTa,該模型首先分別對 和 編碼,然后計算各自[CLS]的余弦相似度,將其作為候選摘要 的打分 。
打分模型 的訓練損失可以采用對比學習的思想,在前人的對比學習工作中,通常會顯式地建立正樣本和負樣本,而這里我們可以將對比損失推廣到排序損失(ranking loss):
其中 為 margin, 為超參數, 是按真實的評價指標 遞減順序排列的候選摘要,這里的 可以是任何評價指標,這里我們采用 ROUGE。大體上說,在訓練過程中, 會學習真實評價指標的排序模式,即真實的評價指標負責提供希望模型學習的排序結果,而模型需要在沒有參考摘要的條件下依靠原文檔為候選摘要排序。
Experiments
作者在 CNN/DailyMail(CNNDM)和 XSum 數據集上進行了相關實驗,并采用 ROUGE-1/2/L 和最近提出的 BERTScore 和 MoverScore 作為評價指標,baseline 模型直接調用了 HFTransformes 提供的基于 BART 的生成式摘要模型,在測試階段采用 diverse beam search 的采樣策略生成候選摘要。
實驗結果如下所示,其中*代表結果取自原文,Origin為作者復現的基于 BART 的生成模型,Max和Min是模型生成的候選摘要中的最高分摘要和最低分摘要,這表明多樣的采樣策略的確可以進一步挖掘模型的潛力,Random是模型隨機生成摘要的平均分,這與原文結果基本一致。可以看到,SimCLS 給出的摘要的得分均比隨機選擇更高,這表明打分模型確實能夠在候選摘要中選擇更符合評價指標偏好的摘要。
另外,當我們增加或減少生成的候選摘要的數量時,評價模型依舊能選擇出更好的候選摘要,這表明評價模型是足夠穩健的。
Fine-grained Analysis
為了進一步證明引入的評價模型的確帶來了有意義的改進,作者在不同語義層次上將 SimCLS 與 baseline 做了比較:
Entity-level:首先抽取原文檔 和參考摘要 中共有的實體,然后計算這些實體出現在候選摘要中的比例。
Sentence-level:首先將參考摘要和候選摘要中的句子與原文檔的句子做語義對齊,然后計算參考摘要和候選摘要對應句子的重合度。
實驗結果如下表所示,這表明 SimCLS 生成的摘要能夠更好地捕捉實體級的語義信息,且在句子層面上與參考摘要的語義更相似。
下圖展示了一例摘要和原文的句子級匹配結果,可以看到 SimCLS 對齊的句子和參考摘要更為相近,而 baseline 關注了不夠相關的句子。有趣的是,這里的參考摘要匹配到了原文的最后一句,而 SimCLS 很好地捕捉到了這一模式。
進一步地,作者發現生成式摘要在處理長文檔(30句以上)時存在位置偏差(position bias),如下圖所示,可以發現 baseline 會傾向于關注靠前的句子,這可能是由 Seq2Seq 模型自回歸的生成方式導致的,而 SimCLS 能在一定程度上緩解位置偏差,這得益于 diverse beam search 和評價模型的引入。
Discussion
本文的出發點是希望解決訓練和測試的不一致的問題,這個問題可以分為兩個方面,一個是自回歸式的 MLE 本身存在的曝光偏差問題,另一個是目標函數和評價指標的不一致問題,而本文主要致力于解決后一個問題。
本文的思路并不復雜,就是利用對比學習訓練了一個能夠在沒有參考摘要的條件下打分的評價模型,該評價模型選擇出的摘要在真實的評價指標上的表現比隨機選擇更好。這一思路其實可以推廣到所有目標函數和評價指標不一致的場景下,即用可微的模型去學習不可微的評價指標,以獲取一個近似的打分函數。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACL 2021 | SimCLS: 概念简单但足够有效的对比学习摘要生成框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡临时额度到期了可以分期吗 必须按时
- 下一篇: Huggingface BERT源码详解