论文浅尝 | DeCLUTR: 无监督文本表示的深度对比学习
Giorgi, J. M., O. Nitski, G. D. Bader and B. Wang (2020). "DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations." arXiv preprint arXiv:2006.03659.
原文鏈接:https://arxiv.org/pdf/2006.03659
GitHub項目地址:
https://github.com/JohnGiorgi/DeCLUTR
本文提出了一個簡單并且易于實現的不對模型敏感的深度學習指標,并且該學習方法不需要任何標注的數據,損失函數為對比學習的損失函數加上MLM的損失函數。本文主要關注于對比學習在句子層面表征的應用。最近,受到CV領域的對比學習框架啟發,本文提出了一個類似于BYOL利用正樣本進行對比學習的NLP領域應用。這里注意的是編碼器是共享權重,并非權值更新。
?
模型的流程如下:
1. 先從無標注的文檔中以beta分布中抽樣anchor片段,在從這一篇相同的文檔以不同的beta分布抽樣出positive樣本對。
2. 之后分別將anchor片段和positive片段經過兩個相同架構共享權值的編碼器,生成對應的token embedding。
3. 再將token embedding進行pooler操作,即將所有的token embedding平均生成同一維度的sentence embedding。
4. 計算對比學習的損失函數。,計算了兩個片段信息之間的距離。表示溫度超參。
5. 在計算出對比學習的loss之后,再加入MLM的loss,對模型進行反向梯度傳播更新參數。??????
本文的實驗結果如下:
模型:DeCLUTER-small使用DistilRoBERTa預訓練模型參數為基礎,DeCLUTER-base使用RoBERTa-base預訓練模型參數為基礎。
數據集:OpenWebText corpus,有495243個至少長度為2048的文檔。
SentEval:含有28個測試數據集,氛圍Downstream和Probing。Downstream使用模型編碼出的句子嵌入來作為分類器的feature進行分類,而Probing評估模型生成的句子嵌入所還有的語義信息,比如預測動詞的時態等。
??????
總而言之,本文提出了一種利用對比學習來幫助模型更好地學習句子層面的表征。并且本文的方法十分簡單且易于實現,適用于很多模型。實驗也表明對比學習在NLP領域句子表征層面上的可行性。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | DeCLUTR: 无监督文本表示的深度对比学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL数据库主从同步的3种一致性方案
- 下一篇: 论文浅尝 - ICML2020 | 拆解