全面改进Transformer类预训练模型,自然语言任务超越BERT
近日 arXiv 上一篇深度學習文章引起業內廣泛關注:
論文標題:SegaBERT: Pre-training of Segment-aware BERT
論文鏈接:https://arxiv.org/abs/2004.14996
薄言 RSVP.ai 聯合加拿大滑鐵盧大學和北京大學提出全新預訓練模型 SegaBERT,用以改進基于 Transformer 的預訓練過程,在多種自然語言任務上全面超越 BERT。
預訓練語言模型
語言模型(Language Modeling)作為自然語言領域經典的序列建模任務,已有數十年的研究歷史。
近年來,因其自監督的特性備受學術界與工業界關注,相繼涌現出 GPT2、BERT、RoBERTa、XLNET 等一系列預訓練語言模型,不斷刷新自然語言各類任務榜單。預訓練+微調模式已然成為自然語言處理領域的新范式。
有趣的是,這些不斷刷新各類排名榜單的預訓練模型無一例外都采用了Transformer(Vaswani ?et ?al., ?2017)架構。該架構自 2017 年提出以來風靡自然語言領域,因其高效的自注意力機制,逐步替代傳統的循環神經網絡。
為了編碼輸入序列中詞語之間的位置關系,Transformer 需要給每個輸入 token 構建一個位置向量。每個位置向量表達了當前 token 在輸入序列中的位置,模型通過海量的輸入數據,來學習這些位置向量之間的關系。
然而,Transformer 的提出時,主要針對的是機器翻譯等輸入序列較短的自然語言任務(從 1~512 個詞不等),而預訓練語言模型的文本序列通常是篇章級別的長度(從 512~1024 個詞不等)。
對于這種較長的自然語言序列而言,原始的 Transformer 的位置向量很難學習到顯著的位置關系。
比如第 3 位和第 123 位的兩個 token,可能是出現在同一個文章段落,并且是相鄰的兩個句子中的兩個詞;也可能是同一個文章段落,但非相鄰的句子中的兩個詞;甚至是同一文章不同段落的兩個詞。
因此,僅僅指出兩個詞在整個輸入文本序列中的位置,不足以表達它們在文本作者的篇章結構中的位置關系。
該文章中提出的 SegaBERT 模型,在 Transformer 原始位置向量的基礎上,對段落、句子、詞語三者間的位置關系聯合建模,更符合語言邏輯習慣,也更益于模型學習。它使得 Transformer 結構對輸入序列的分隔信息有了更好的建模能力,以此獲得更好的文本編碼表示,用以提升下游自然語言處理任務。
為了驗證這種結構改進自身帶來的功效,SegaBERT 模型使用了與 BERT 相同的訓練配置,在人類自然語言理解任務 GLUE 的七項任務中全面超越 BERT,整體平均分數提升 1.2 個點。
同時,SegaBERT 也在斯坦福大學的閱讀理解任務 SQUAD 中的 EM score 和 F1 score 兩項指標上分別提升 1.2 和 1.5 個點。
論文介紹
和 BERT 相比,SegaBERT 為每個輸入的詞/子詞構建其段落索引、句子索引和詞索引,同時在模型中設置段落位置向量、句子位置向量和詞位置向量。通過位置索引和位置向量為模型輸入序列提供位置向量表示,如圖 2 所示:
▲圖2. 模型輸入
相比 BERT 中使用 512 個詞位置索引對輸入序列中每個詞進行位置標示,SegaBERT 采用 50 個段落位置索引、100 個句子位置索引和 256 個詞位置索引,為輸入序列中的每個詞標示其三重位置信息。
即為每個詞賦予一個三元組位置向量,分別包含其所在段落位置索引、所在句子在相應段落中的位置索引及該詞在其所在句子內的位置索引。這樣,SegaBERT 在進行文本編碼時,能夠做到片段感知(segment-aware),捕捉到更豐富的篇章結構信息。
因此,SegaBERT 在預訓練階段,能利用更豐富的位置表征,學習到信息更豐富的上下文表示。這樣的改進,提升了預訓練語言模型的文本編碼能力,使其在微調階段得到更完善的句子/篇章表示,進而提升下游任務的預測效果。
通過使用 Tesla V100 16 卡機,SegaBERT 預訓練了 SegaBERT-base 模型和 SegaBERT-large 模型,分別采用 12 層 Transformer、768 維隱層表示、12 個多頭注意力與 24 層 Transformer、1024 維隱層表示、24 個多頭注意力。
其中,SegaBERT-base 模型只使用了 wikipedia 數據(12GB)進行訓練,訓練步數為 500K;而 SegaBERT-large 模型則使用了 wikibooks 數據(16GB),訓練步數為 1M。
在訓練任務上,SegaBERT 采用了和 BERT 相同的 MLM(掩碼語言模型)任務,即對輸入的 512 個 token 進行隨機掩碼。通過模型訓練,對這些被掩碼的位置進行預測,還原其原本的文本內容。值得注意的是,SegaBERT 并沒有引入其他輔助任務,例如 NSP(下句預測)等。
實驗結果
SegaBERT 采用同 BERT 相同的參數量、預訓練數據與訓練超參與進行語言模型預訓練。其 Large 模型在人類自然語言理解任務 GLUE 中,七項任務超越 BERT,整體平均分數提升 1.2 個點。
除此之外,在斯坦福大學的閱讀理解任務 SQUAD 中,SegaBERT 更是在 F1 score 和 EM score 上分別提升 1.2 和 1.5 個點,更是超越 KT-NET(基于 BERT 進行融合外部知識庫的微調模型)、StructBERT(多種輔助任務參與預訓練的改進版 BERT)和 BERT_DA(利用數據增廣進行微調的 BERT)。
同時,為了說明添加的段落位置表示和句子位置表示的有效性,該文章還進行了在 BERT 原本的 512 個詞位置索引的基礎上,添加 50 個段落位置索引和 128 個句子位置索引的對比實驗(對應下表中的實驗組第二列 BERT with P.S.)。
這里需要說明的是,BERT 中的詞位置索引是該詞在整個輸入的長度為 512 的序列中的絕對位置,而 SegaBERT 中詞位置索引是該詞在其所在句子中的相對位置。
可以看到,該組實驗在除 CoLA 外的其余 7 項 GLUE 任務和閱讀理解 SQUAD 任務相比于原始的 BERT 均有明顯的提升,其中 SQUAD 任務的結果與 SegaBERT 相近。
這組實驗表明,簡單的段落和句子的位置表征引入,就能起到提升預訓練語言模型的效果。
在 Transformer 和預訓練語言模型成為 NLP 標準范式的今天,SegaBERT 通過重新定義 Transformer 底層輸入的位置表征,在與 BERT 采用相同的預訓練數據、計算資源與模型規模條件下,取得了較為明顯的提升效果。
值得注意的是,這種新的位置表征方法并非僅限于改進 BERT,而是可以推廣且應用到所有利用 Transformer 結構進行預訓練語言模型的工作中。可以預見的是,作為第一篇研究 Transformer 輸入片段多層次位置表征的論文,其位置表征問題會逐步成為預訓練語言模型與 Transformer 結構的未來研究方向。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的全面改进Transformer类预训练模型,自然语言任务超越BERT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神舟战神怎么选择启动 神舟战神启动方法有
- 下一篇: 领克 Z20 纯电 SUV 实车曝光:已