【论文阅读-句向量】Whitening Sentence Representations for Better Semantics and Faster Retrieval
這是蘇神的論文,從BERT-flow到BERT-whitening,越來越接近文本的本質,處理方法也越來越簡單了。其實昨天已經看完這個論文了,但是在看蘇神的博客時發現這篇論文竟然還有一點小插曲:一篇使用了同樣白化方法來優化預訓練表征的論文發表在了EMNLP上,然后蘇神把這件事的來龍去脈,雙方交流過程寫在了他的科學空間里,然后我當然就很感興趣啦,所以就沒來的及寫閱讀筆記。今天把兩篇論文都看了,一起補在這里。
Title: Whitening Sentence Representations for Better Semantics and Faster Retrieval
From: arXiv
Link: https://arxiv.org/abs/2103.15316
Code: https://github.com/bojone/BERT-whitening
核心思想:
通過whitening來緩解BERT句子表征中的各向異性的問題,達到和BERT-flow差不多的結果。
whitening還可以降低表征的維度,減小storage cost.
模型
flow模型不是解決問題的關鍵部分,只需要一個線性變化就可以達到相近的效果。
因為從余弦相似度的公式來看,等號只有在“標準正交基”下才是成立的,而BERT生成句向量很可能不滿這個條件,由于基底的不同,導致向量的坐標也不同,通過上述公式計算出的余弦值也就不能體現句子本身的語義相似度了。
所以我們希望把現有的句向量投影到一個基于標準正交基的空間下,重新計算句向量的坐標。我們知道標準正態分布的均值為0,協方差矩陣為單位陣,那么我們也對句向量做這樣一個變換。具體來說,也把句向量的平均值變換為0,協方差矩陣變換為單位矩陣。這個過程也就是傳統數據挖掘中的白化操作(Whitening)。
具體的過程推到看蘇神的原文吧。
實驗
也是在7個STS的數據集上做的實驗。
- 主實驗
- 降維后的維度K對效果的影響
同時呢,我也找到了這篇存在一些爭議的論文,發表于EMNLP2021:
WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach
【Paper】 【Code】
這篇論文在BERT、RoBERT、DistilBERT和LaBSE四個預訓練模型上做了實驗,主要的貢獻點是:
確實和蘇神的論文很像,不過這種實驗豐富、驗證廣泛類型的論文挺符合EMNLP的喜好吧。
對BERT不同層數組合的效果做了可視化,比較有趣。
參考:
蘇神blog: 你可能不需要BERT-flow:一個線性變換媲美BERT-flow
知乎專欄:細說Bert-whitening的原理
知乎專欄:細說Bert-whitening的原理
總結
以上是生活随笔為你收集整理的【论文阅读-句向量】Whitening Sentence Representations for Better Semantics and Faster Retrieval的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Collaborative Spatio
- 下一篇: 【论文阅读】Adaptive Cross