双塔模型没效果了?请加大加粗!
很多研究表明,雙塔在一個域表現不錯,在其他域表現不好了。一個廣泛被認同的觀點就是雙塔僅僅用了最后一層的點積算分,這限制了模型的召回能力。這篇論文<Large Dual Encoders Are Generalizable Retrievers>就否認了這個觀點,通過擴展雙塔的網絡,就能提升模型對各個召回任務的效果,特別是那些跨域的。實驗結果表明,該論文提出的Generalizable T5-based dense Retrievers(GTR)在BEIR數據集上顯著優于現存的一些召回模型。
在query和document的召回任務中,他們分別被encode到同一空間中,然后使用近鄰檢索給query高效的找到對應document。很多論文都表示,點積(或是cos相似度)不能夠有效抓住語意相關性,這篇論文并不贊同。值得注意的是,擴展雙塔網絡的capacity和預訓練模型(像是bert)的擴展不同,因為有瓶頸層(用于點積的那層)的存在。提升encoder的capacity卻不能改變點積限制了query和document交互信息的現實。為了驗證這個假設,該文使用了T5模型,使得encoders可以有50億的參數,并固定頂層為768維度如下圖所示。最后評估了GTR在BEIR benchmark上zero shot的效果,在9個域和18個召回任務的表現是讓人吃驚的。
T5模型算是大力出奇跡的典范了,靠著統一框架和所有NLP任務都轉換成Text-to-Text任務,同樣的模型,同樣的loss,同樣的訓練,同樣的編碼解碼,完成了所有的NLP任務。
本文用的T5的預訓練模型,直接把模型capacity從百萬提升到億,模型架構如下所示:
編碼query和passage用的是encoder的mean pooling,并固定輸出是768維度。loss使用的是batch內負采樣,使用sampled softmax loss:
還可以補充一些負例,如下式所示:
整個訓練過程包含預訓練步驟和fine-tuning步驟,web-mined語料庫提供了很多半結構化的數據對(像是對話,問答),可以提供豐富的語意相關信息。還有些搜索數據集,往往是人工標注的,雖然質量高但是收集成本高。這篇論文使用T5模型的encoder進行初始化,并在從互聯網收集的問答pair對上進行訓練,然后在SentEval和Sentence Textual Similarity任務上進行評估。
- 1.Large Dual Encoders Are Generalizable Retrievers https://arxiv.org/pdf/2112.07899.pdf
- 2.Exploring the limits of transfer learning with a unified textto-text transforme r https://arxiv.org/pdf/1910.10683.pdf
總結
以上是生活随笔為你收集整理的双塔模型没效果了?请加大加粗!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 就知道调bert,都不知道加个对比学习吗
- 下一篇: 大道至简,SQL也可以实现神经网络