REPT: Bridging Language Models and Machine Reading Comprehension via Retrieval-Based Pre-training 阅读
?發順豐
目錄
motivation
方法
預處理
任務定義
SSP任務
RMLM任務
模型
Query表示
SSP
RELM
優化函數
Fine tune階段
Multiple Choice QA
motivation
PLM更注重通用的語義表示,MRC需要從多個文檔或句子中抽取證據。
通過Surrounding Sentences Prediction(SSP) 和 Retrieval based Masked Language Modeling (RMLM)來彌補PLM和MRC之間的gap,增強PLM的證據抽取能力,在MRC任務上可以很好的遷移這些能力。
方法
預處理
數據集:英文維基百科,2020/5/1。用bert tokenized切成500個token一個segment。每個segment看成一個doc,切成句。句子token數小于5的拼到前面去。
每個doc,選30%最重要的句子作為query。實體或名詞出現的次數越多越重要,一個句子中包含的實體和名詞重要度的累加為句子重要度。將其中的被提到的實體或和名詞mask,防止模型學到shortcut
?
任務定義
前t個為從doc中抽取的query。
SSP任務
從doc中抽取幾個句子作為query,剩下的合并作為passage,模型預測每個query的前一句和后一句。為了避免學到shortcut,將query中重復出現的實體或名詞按比例mask掉。
BERT maask 90%實體 30%名詞,
ROBERTa mask?90%實體 30%名詞, 和90%實體 90%名詞兩份數據集,訓練的時候混合一起訓練。
預測query原先的位置,函數r是輸出query原先的順序。
SSP任務是要預測query的在原來的文檔中前一句和后一句
RMLM任務
還原mask掉的實體或名詞
模型
Query表示
在預訓練階段,復用了上述公式,
來生成任務特定的query表示,來緩解overfit
SSP
query在hidden上做singe-head attention,獲取證據信息,dense獲得每個句子對query的得分。
RELM
z表示query中被mask的token的index。
函數f是 normalized的兩層dense,
優化函數
a,b表示query對應的原始doc中的前一句和后一句index,其概率分布如下。
SSP的目標函數
RMLM中,query被mask的token 的index集合為,golden集合為
恢復mask的token概率為
x‘ 表示詞表中的token ,e(x)為x的word embeding。
目標函數為
Fine tune階段
對于multiple choice QA,把問題和選項拼起來最為query。每個example可以i變成
query的表示仍然使用Query表示部分的多頭注意力。證據抽取過程不同的任務不同。
Multiple Choice QA
每個句子的表示為
對于Multi-RC數據集,不定項選擇題,每個選項二分類
Span Extraction
?
實驗結果
BERT w.M 繼續用MLM任務,維基百科數據訓BERT
BERT-Q 加入多頭注意力機制獲取query表示
BERT-Q?w. R/S 在BERT-Q的基礎上,用SSP和RMLM任務pretrain
BERT-Q?w. R 用RMLM任務pretrain
相比于base,性能提升比較明顯。但是加入了兩個預訓練任務進行post train。
1. 只用多頭注意力機制獲取query表示性能提升不明顯甚至下降,必須配合預訓練任務,
2. 用MLMpost train,性能提升有限
3. 兩個任務一起使用性能好,只用一個效果不明顯,只用RMLM性能下降
在Span Extraction 任務上 Multi-RC
GRR 是Graph Recurrent Retriever
在SQuAD 2.0?
在Multi-RC上 證據抽取的準召率。
?
總結
以上是生活随笔為你收集整理的REPT: Bridging Language Models and Machine Reading Comprehension via Retrieval-Based Pre-training 阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《introduction to inf
- 下一篇: 字典树c语言,字典树的应用 单词意义查找