微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法
作者丨張浩宇?
學校丨國防科技大學計算機學院
研究方向丨自然語言生成、知識圖譜問答
本文解讀的是一篇由國防科技大學與微軟亞洲研究院共同完成的工作,文中提出一種基于預訓練模型的自然語言生成方法。
摘要
在本文中,我們基于編碼器-解碼器框架提出了一種新穎的基于預訓練的方法,該方法可以由給定輸入序列以兩階段的方式生成輸出序列。
對于編碼器,我們使用 BERT 將輸入序列編碼為上下文語義表示。對于解碼器,在我們的模型中有兩個階段,在第一階段,我們使用基于 Transformer 的解碼器來生成輸出序列的草稿;在第二階段,我們分別 mask 草稿中的每個單詞并將其提供給 BERT,然后基于 BERT 生成的輸入序列和草稿的上下文語義表示,由一個基于 Transformer 的解碼器來預測精化每個被 mask 位置的單詞。?
據我們所了解,我們的方法首次將 BERT 應用于文本生成任務。作為在這方面的首次嘗試,我們在文本摘要任務上驗證我們方法的效果。試驗結果表明,我們的模型在 CNN/Daily Mail 和 New York Times 數據集上的性能超過了當前最好的方法。
研究動機
文本摘要是一種從給定文本中生成精煉信息的任務,近年來很多生成式摘要方法在基于神經網絡的序列到序列模型上進行了改進。但是這些方法有一些不足:首先在解碼器端,這些方法大都是從左向右的解碼,因此在解碼每個單詞的時候只能看到上文,而無法看到下文;其次由于上下文不完整,這些方法無法在解碼器端很好的利用預訓練的上下文語言模型的能力。
同時,預訓練的上下文語言模型(如 BERT)在很多自然語言處理任務上取得了很好的效果。本文工作希望探討如何更好的利用此類預訓練語言模型提高文本生成方法的效果。
研究方法
上圖是作者提出的方法的結構圖,它包含了一個編碼器和兩個解碼器。方法包含以下部分:草稿生成過程以及精煉過程。
草稿生成過程中,編碼器由預訓練的 BERT 從輸入文檔中提取上下文表示,而后利用一個帶有 Copy 機制的 N 層 Transformer 解碼器,以從左向右的方式解碼生成草稿。Copy 利用最后一層解碼器的輸出和編碼器的輸出計算注意力權重 α 和 Copy 概率,并和生成概率進行加權求和得到最終預測的概率:
這一階段解碼器端并沒有使用 BERT 產生上下文表示。該過程的損失函數定義為:
摘要精煉過程的主要目的是利用 BERT 的上下文表示提高解碼器的學習能力,因此該過程使用和草稿生成階段相同的文檔編碼。在解碼器端,我們提出了一個單次級別的精煉解碼器,該解碼器接受草稿作為輸入,輸出精煉后的摘要。
如模型圖中所示,首先依次將摘要草稿中的每個單詞掩蓋住,而后將掩蓋后的序列輸入 BERT 并得到序列的上下文表示。而后這個上下文表示被輸入 N 層 Transformer 的解碼器并與源文檔表示進行交互預測摘要的每個單詞。
盡管該解碼器也是自左向右的解碼順序,但是在每個時刻解碼器都能夠獲得完整的上下文。從 BERT 的角度來看,輸入的是完整序列而不僅僅是上文,輸入的分布與 BERT 的預訓練過程更加一致,這能夠盡可能地讓 BERT 輸入更好的上下文語義表示,從而幫助解碼器生成更佳的摘要。
直觀上看,在我們第二次解碼時,每個時刻解碼器能夠利用到的信息更多,降低了學習的難度。
在實驗中,基于實驗結果我們共享了兩個解碼器的參數,精煉過程的損失函數定義如下。
最后,由于最大化極大似然估計的目標對摘要等文本生成任務來說太過嚴格,可能會過度擬合,因此借鑒之前工作,我們將 ROUGE-L 作為另一個優化目標并利用強化學習對該目標進行優化,最終的學習目標是 MLE 和 ROUGE-L 的混合。
實驗結果
為了驗證模型的效果,作者在 CNN/DailyMail 和 NYT-50 兩個摘要數據集上進行了實驗,并與當前一些主要方法進行了對比。其中 NYT-50 數據集是 NYT 數據集中刪選所有摘要長度大于 50 的樣本得到。在 CNN/DailyMail 數據集上作者進行了消融實驗,以此來驗證每個模塊的作用。
同時,為了驗證摘要長度對模型性能的影響,作者對不同長度樣本下模型性能相對于抽取式和生成式基準模型的平均提高進行了計算并分析。
同生成式模型相比,相比于長度更短的樣本,在摘要長度為 40-80 區間內的樣本中作者提出的模型達到了更高的性能提升;而同抽取式基準模型相比,在長度超過 80 的樣本上,性能提升不大,這可能是由于實驗設置截斷的原因,也可能是因為這個區間訓練樣本太少,因此抽取式模型性能不會落后太多。
下面是兩個模型預測(Pred.)和正確摘要(Ref.)的例子。
總結
本文主要的創新點在于設計了一個兩階段解碼器的模型,從而更好地在解碼器端利用預訓練語言模型的能力輔助文本生成。與目前 SOTA 的方法相比,在兩個摘要數據集上都有一定的性能提升。
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度思考 | 從BERT看大規模數據的無監督利用
AI Challenger 2018 機器翻譯參賽總結
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構信息網絡表示學習論文解讀
不懂Photoshop如何P圖?交給深度學習吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实录 | 平安人寿资深算法工程师谢舒翼:
- 下一篇: 免费报名 | 智源论坛:智能处理器探索,