Perturbed Masking:和参数无关的预训练模型分析方法
?PaperWeekly 原創 ·?作者|蔡杰
學校|北京大學碩士生
研究方向|問答系統
論文標題:
Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT
論文來源:
ACL 2020
論文鏈接:
https://arxiv.org/abs/2004.14786
代碼鏈接:
https://github.com/Frank-Smith/Perturbed-Masking
引言
本文是一篇分析 BERT 模型的文章。通常分析 BERT 的時候研究人員會設計一些 probing 任務,并通過 BERT 的每一層參數來嘗試解決這些任務,如果某一層能夠很好的解決某一任務,那就說明?BERT 在這一層是學到了和該任務相關的語言學信息的。
probing 任務通常被設計為一個簡單的神經網絡(比如分類任務通常在 BERT 后接一層的 FFN),但是這種做法有個問題:我們無法確定到底是 BERT 本身,還是添加的簡單神經網絡學到了這些相關的信息,該做法反而增加了模型可解釋的難度。
論文貢獻
作者提出了一種和參數無關的分析預訓練模型的方法:Perturbed Masking, 該方法能夠分析預訓練模型中詞與詞之間的關系,使全局的句法信息提取成為可能。
作者在多個 NLP 任務中驗證了他們方法的有效性(e.g., syntactic parsing, discourse dependency parsing)。
作者還將他們從預訓練模型中提取出來的句法結構應用到下游任務中,發現作者他們提取句法信息的性能與解析器創建的句法信息相當、甚至更好。這為發掘 BERT 在下游任務上取得的成功提供了一個視角。
Perturbed Masking
作者提出了利用擾動掩蔽技術(Perturbed Masking)來評估 MLM 中一個詞對另一個詞的影響。
3.1 BERT
BERT 用了兩個預訓練任務:MLM 和 NSP。講講和本文有關的 MLM(Mask Language Model),一句話中隨機選擇 15% 的 word 作為替換的候選 word,這些候選的 word 中又分為以下三種情況:
80% 的概率替換為?[MASK]?標記
10% 的概率用隨機選擇的一個詞替換
10% 的概率保持不變
而 bert 要做的就是去預測那些被替換為?[MASK]?標記的 word 原來是什么 word。
3.2 Token Perturbation
作者的目的是找到一個能夠建模兩個 word 之間的函數。作者把 mask 了第 i 個 word 的句子表示為 ,把 mask 了第 j 個 word 的句子表示為 ,然后把 [MASK] 位置對應的 embedding 作為這個 word 的表示。
為了找到第 j 個詞 對預測第i個詞 的影響,作者在 mask 了第 i 個詞的句子 ?的基礎上又 mask 了第 j 個詞,整句變成了 。
兩個 word 之間的函數 表示為:
上圖中的 就是對應的 embedding 函數,d 有以下兩種:
第一種?Dist?就是計算兩個 embedding 之間的歐式距離。第二種?Prob?需要先把 embedding 映射成關于詞表的一個分布,然后對于同一個詞的概率相減。
通過重復以上方法,可以得到一個?Impact Matrix,從這個矩陣中我們就可以得到句法樹。
作者還提到因為 bert 使用的 BPE 算法,導致一些詞會被切分成 sub-words。sub-words 的影響有兩個維度,第一種情況是 被切成了 sub-words,作者認為 中的每個部分對 的影響都是相同的,所以就只取了 的第一個 sub-word 來計算 對 的影響。第二種情況就是 被切成了 sub-words,在這里是取了 對 的每一個 sub-word 的影響的平均值。
3.3 Span Perturbation
作者在 token-level 之后,還擴展到了 span-level(包括短語、句子和段落)。
采用的方法和 3.2 是一致的,不一樣的地方在于將句子替換為文檔,句子中的 token 替換為(短語、句子或段落)。
Visualization with Impact Maps
作者從 CoNLL 2017 共享任務的 PUD treebank 數據集中向 BERT 輸入了 1000 個句子,從而提取 Impact Matrix 。圖 1 展示了一個示例矩陣。
從圖中我們可以注意到矩陣圖包含許多位于對角線上的深色條紋。以 different 一詞為例(倒數第二列)。在主對角線上觀察到一條清晰的垂直深色條紋。作者對此的解釋是, different 這個詞的出現劇烈地影響了它之前那些詞的出現。
這些劇烈的影響體現在上圖的倒數第二列中所見的深色像素。這個觀察結果與ground-truth的依賴樹一致,它選擇 different 作為短語 This will be a little different 中所有剩余單詞的頭。這種情況在 transition 和 hill 中也有類似的模式。
根據圖一的 Matrix,作者抽取出來的句法樹,可以看到效果還是很不錯的。
沿著影響圖的對角線,我們還可以看到單詞被分成四個連續的具有特定意圖的塊(例如,一個名詞短語 on Capitol Hill)。我們還可以觀察到,中間的兩個詞塊有相對緊密的詞塊之間的聯系,因此把他們組在一起,可以形成一個更大的動詞短語。這一觀察表明,BERT 可以捕捉到語言的組合性。
總結
綜上所述,作者提出了一種無參數探測技術來補充目前通過 prob methods 來解釋 BERT 的工作。通過精心設計的兩階段的擾動 mask 機制,可以得到了 BERT 的?Impact Matrix。這個矩陣反映了捕捉詞間關聯的注意機制的功能,作者還設計了算法可以從這個矩陣中提取出句法樹。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的Perturbed Masking:和参数无关的预训练模型分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何兼容自训练与预训练:更高效的半监督文
- 下一篇: 炒股需要先开立股票账户,网上和线下都能开