谷歌提出多语言BERT模型:可为109种语言生成与语言无关的跨语言句子嵌入
新智元報道
來源:Google
編輯:雅新
谷歌研究人員提出了一種 LaBSE 的多語言 BERT 嵌入模型。該模型可為 109 種語言生成與語言無關的跨語言句子嵌入,同時在跨語言文本檢索性能優于 LASER。
近日,谷歌 AI 研究人員提出了一種稱為 LaBSE 的多語言 BERT 嵌入模型,該模型可為 109 種語言生成與語言無關的跨語言句子嵌入。這一論文題目為「Language-agnostic BERT Sentence Embedding」,目前已在 arxiv 上發表。
論文地址:https://arxiv.org/pdf/2007.01852.pdf 研究背景
多語言嵌入模型是一種功能強大的工具,可將不同語言的文本編碼到共享的嵌入空間中,從而使其能夠應用在一系列下游任務,比如文本分類、文本聚類等,同時它還利用語義信息來理解語言。
用于生成此類嵌入的現有方法如 LASER 或m~USE 依賴并行數據,將句子從一種語言直接映射到另一種語言,鼓勵句子嵌入之間的一致性。
盡管這些現有的多語言嵌入方法可在多種語言中有良好的整體性能,但與專用雙語模型相比,它們在高資源語言上通常表現不佳。
此外,由于有限的模型容量、低資源語言的訓練數據質量通常較差,可能難以擴展多語言模型以支持更多語言,同時保持良好的性能。
多語言嵌入空間的示例改善語言模型的最新研究包括開發掩碼語言模型(MLM)預訓練,如 BERT,ALBER 和 RoBERTa 使用的預訓練。由于這種方法僅需要一種語言的文字,因此在多種語言和各種自然語言處理任務中均取得了非凡的成就。
另外,MLM 預訓練已經擴展到多種語言,通過將 MLM 預訓練修改為包括級聯翻譯對,也稱作翻譯語言模型(TLM),或者僅引入來自多種語言的預訓練數據。
但是,盡管在進行 MLM 和 TLM 訓練時學習到的內部模型表示形式對下游任務進行微調很有幫助,但它們不能直接產生句子嵌入,而這對于翻譯任務至關重要。
在這樣情況下,研究人員提出了一種稱為 LaBSE 的多語言 BERT 嵌入模型。
該模型使用 MLM 和 TLM 預訓練在 170 億個單語句子和 60 億個雙語句子對上進行了訓練,即使在訓練期間沒有可用數據的低資源語言上也有效。此外,該模型在多個并行文本檢索任務上有表現出良好的性能。
收集 109 種支持語言的訓練數據 LaBSE 模型可在單個模型中提供了對 109 種語言的擴展支持在先前的工作中,研究者曾建議使用翻譯排名任務來學習多語言句子嵌入空間。該方法通過給定源語言中的句子,對模型進行排序,從而對目標語言中的句子的正確翻譯進行排名。
翻譯排名任務通過使用帶有共享變壓器的雙編碼器體系結構進行訓練的,讓雙語模型在多項并行文本檢索任務表現出最先進的性能。
但是,由于模型能力、詞匯量覆蓋范圍、訓練數據質量等方面的限制,將雙語模型擴展為支持多種語言(在研究者的測試案例中為 16 種語言)時,模型表現并不優。
翻譯排名任務對于 LaBSE,研究人員在類似 BERT 的體系結構上利用了語言模型預訓練的最新成果,包括 MLM 和 TLM,并在翻譯排名任務上進行了微調。
使用 MLM 和 TLM 在 109 種語言上預先訓練的 500k 令牌詞匯表的 12 層轉換器,用于增加模型和詞匯表覆蓋范圍。最終,LaBSE 模型在單個模型中提供了對 109 種語言的擴展支持。
雙編碼器體系結構 LaBSE 模型在跨語言文本檢索的性能優于 LASER
研究者使用 Tatoeba 語料庫評估提出的模型,Tatoeba 語料庫是一個數據集,包含多達 112 個語言的 1000 個英語對齊的句子對。
對于數據集中 30 種以上的語言,該模型沒有訓練數據。
該模型的任務是查找給定句子的最近相鄰的翻譯,并使用余弦距離進行計算。
為了了解訓練數據分布的開頭或結尾處的語言模型的性能,研究人員將語言集分為幾組,并計算每組語言的平均準確性。
下表列出了與每種語言組的m?USE、LASER 以及 LaBSE 模型實現的平均準確性對比結果。
可以看出,所有模型在涵蓋大多數主要語言的 14 語言組中均表現出色。
當涵蓋的語言增多,LASER 和 LaBSE 的平均準確度都會下降。
但是,隨著語言數量的增加,LaBSE 模型的準確性降低的要小得多,明顯優于 LASER,尤其是當包括 112 種語言的全部分發時,LaBSE 準確性為 83.7%,LASER 為 65.5%。
此外,LaBSE 還可用于從 Web 規模數據中挖掘并行文本。谷歌研究人員已經通過 tfhub 向社區發布了預先訓練的模型,其中包括可以按原樣使用或可以使用特定于域的數據進行微調的模塊。
鏈接:https://tfhub.dev/google/LaBSE/1
參考鏈接:
https://ai.googleblog.com/
總結
以上是生活随笔為你收集整理的谷歌提出多语言BERT模型:可为109种语言生成与语言无关的跨语言句子嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 吉利2018款远景幸福版最低多少钱?
- 下一篇: 冻虾饺怎么做好吃啊?