Roberta-wwm-ext-large模型中的wwm理解
生活随笔
收集整理的這篇文章主要介紹了
Roberta-wwm-ext-large模型中的wwm理解
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Roberta:Robust optimize bert approach(名字來自于一篇論文題目的縮寫)
wwm:whole word masking的縮寫;經(jīng)典的bert作mask是隨機的,且是基于WordPiece token之上的,沒有約束條件。
而wwm是將一個單詞分成多個word piece后,mask其中一個,那么整個word必須全部被mask,換句話說,mask的最小單位是整個word,而原來是word piece(part of 整個word)
案例:
[OriginalSentence] 使用語言模型來預(yù)測下一個詞的probability。 [OriginalSentence with CWS] 使用?語言?模型?來?預(yù)測?下 一個?詞?的?probability?。 [OriginalBERTInput] 使?用?語?言?[MASK]?型?來?[MASK]??測?下 一 個?詞?的?pro [MASK] ##lity?。 [WholdWordMaskingInput] 使?用?語?言?[MASK][MASK]?來?[MASK] [MASK]?下 一 個?詞?的?[MASK] [MASK] [MASK]。 “模型” 為一個word(本質(zhì)上理解為token),原來隨機mask的時候, 是可以只mask一部分。比如“模"被替換成mask;而”型"保持不變。 而wwm就單個word必須全部被Mask,否則就不要mask。 ext:extended data總結(jié)
以上是生活随笔為你收集整理的Roberta-wwm-ext-large模型中的wwm理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux系统下如何去掉多余的^M
- 下一篇: 为什么你应该开始习惯使用 pathlib