【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络
讀論文是做AI的人必需要下的功夫,所以咱們開通了專欄《每周NLP論文推薦》。本著有三AI的一貫原則,即系統(tǒng)性學(xué)習(xí),所以每次的論文推薦也會是成系統(tǒng)的,爭取每次能夠把一個領(lǐng)域內(nèi)的“故事”基本說清楚。
先通過無監(jiān)督學(xué)習(xí)在大規(guī)模語料上進行Pre-Training,再通過Fine-tune的方式,在一定語料上進行有監(jiān)督學(xué)習(xí),進行下游任務(wù)的學(xué)習(xí),是NLP領(lǐng)域近來的以大趨勢。這次論文推薦就從詞向量開始,依次介紹到最新的XLnet。
作者&編輯 | 小Dream哥
1 詞向量的提出
在這篇文章中,Bengio等人提出了神經(jīng)語言模型(NNLM),而它的副產(chǎn)品,詞向量,可以實現(xiàn)詞的分布式表征。詞向量模型是一個重要的工具,可以把真實世界抽象存在的文字轉(zhuǎn)換成可以進行數(shù)學(xué)公式操作的向量,對這些向量的操作,是NLP所有任務(wù)都在做的事情。NNLM提出了一種可能的獲得詞向量的稠密式表征的手段,具有重要意義。
[1] D'informatique Et Recherche Operationnelle, Departement & Bengio, Y & Ejean Ducharme, R & Vincent, Pascal & De Recherche Mathematiques, Centre. (2001). A Neural Probabilistic Language Model.
2 Word2vec的提出
這篇文章提出了一種能夠真正高效獲得詞向量的手段,進而促進了后續(xù)NLP的快速發(fā)展。Mikolov等研究者在這篇論文中提出了連續(xù)詞袋模型CBOW和 Skip-Gram 模型,通過引入負采樣等可行性的措施。使得學(xué)習(xí)高質(zhì)量的詞向量成為現(xiàn)實。
[2] Mikolov T , Sutskever I , Chen K , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013.
3 ELMo詞向量的動態(tài)表征
訓(xùn)練得到的詞向量表征的詞語之間的信息其實有限。詞向量一個難以解決的問題就是多義詞的問題,例如“bank”在英文中有“河岸”和“銀行”兩種完全不同意思,但是在詞向量中確實相同的向量來表征,這顯然不合理。
ELMO的本質(zhì)思想是:用事先訓(xùn)練好的語言模型學(xué)好一個單詞的Word Embedding,此時多義詞無法區(qū)分,不過這沒關(guān)系。在實際使用Word Embedding的時候,單詞特定的上下文就可以知道,這個時候模型可以根據(jù)上下文單詞的語義去調(diào)整單詞的Word Embedding表示,這樣經(jīng)過調(diào)整后的Word Embedding更能表達在這個上下文中的具體含義,也就能克服多義詞動態(tài)表征的問題。
[3] Peters, Matthew E. , et al. "Deep contextualized word representations." (2018).
4 通用語言模型GPT
Generative Pre-Training(GPT)采用單向語言模型,用Transformer作為特征抽取器,在當(dāng)時NLP領(lǐng)域的各項任務(wù)中都取得了非常不錯的效果。
從GPT中可以看到一個明顯的趨勢:越來越多的將原來在下游任務(wù)中做的事情,搬到預(yù)訓(xùn)練時來做。
[4] Alec RadfordKarthik, NarasimhanTim, SalimansIlya Sutskever. (2018). Improving Language Understanding by Generative Pre-Training.
5 BERT的橫空出世
谷歌推出BERT(Bidirectional Encoder Representation from Transformers)模型,刷新了幾乎所有NLP任務(wù)的榜單,一時風(fēng)頭無兩。仔細看BERT的實現(xiàn),其與GPT的主要差別在于,BERT用的“雙向語言模型”,它通過MASK掉預(yù)料中的部分詞再重建的過程來學(xué)習(xí)預(yù)料中詞語序列中的語義表示信息,同樣采用Transformer作為特征抽取器。BERT的出現(xiàn),因其效果太好,幾乎讓其他所有的NLP工作都黯然失色。
[5] Devlin, Jacob , et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." (2018).
6 能寫故事的GPT2.0
2019年2月openAI用更大的模型,規(guī)模更大質(zhì)量更好的數(shù)據(jù)推出了GPT2.0,其語言生成能力令人驚嘆。相比于BERT,得益于以語言模型為訓(xùn)練任務(wù),GPT2.0的生成能力要更強,在文本生成領(lǐng)域獲得很大的反響。
值得關(guān)注的一點是,GPT的創(chuàng)造者們認為,Finetune的過程其實是不必要的,不同的任務(wù)用不同的處理方式即可。也就是說,自然語言處理中,幾乎所有的事情都放在無監(jiān)督中的預(yù)訓(xùn)練就可以了。是不是聽著就覺得帶勁?當(dāng)然,這個還需要時間來考證,至少BERT還不這么認為。
[6] Alec Radford,? Jeffrey Wu, Rewon Child,? David Luan,? Dario Amodei , Ilya Sutskever.(2019) Language Models are Unsupervised Multitask Learners.
7 GPT與BERT的結(jié)合體XLnet
在2019年6月,XLNet: Generalized Autoregressive Pretraining for Language Understanding誕生,其基于BERT和GPT等兩類預(yù)訓(xùn)練模型來進行改進,分別吸取了兩類模型的長處,獲得的很好的效果。
在XLnet中,提出了AutoRegressive (AR) 語言模型和AutoEncoding (AE)語言模型的說法,分別對應(yīng)GPT和BERT,分析他們的優(yōu)劣勢,然后做出結(jié)合,模型的效果超過BERT,暫時占據(jù)自然語言處理頭牌。
[7] Zhilin Yang, Zihang Dai, Yiming Yang , Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le(2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding.
8 如何獲取文章與交流
找到有三AI github開源項目即可獲取。
https://github.com/longpeng2008/yousan.ai
文章細節(jié)眾多,閱讀交流都在有三AI-NLP知識星球中進行,感興趣可以加入,掃描下圖中的二維碼即可。
總結(jié)
這一期我們從頭到尾,看了現(xiàn)在最火爆的預(yù)訓(xùn)練語言模型的發(fā)展過程,細細看過來,你能夠品味到NLP這些年發(fā)展的脈絡(luò),非常有益處。后面我們的每周論文分享會從不同的自然語言處理任務(wù)來展開。
轉(zhuǎn)載文章請后臺聯(lián)系
侵權(quán)必究
往期NLP精選
【NLP】自然語言處理專欄上線,帶你一步一步走進“人工智能技術(shù)皇冠上的明珠”。
【NLP】用于語音識別、分詞的隱馬爾科夫模型HMM
【NLP】用于序列標(biāo)注問題的條件隨機場(Conditional Random Field, CRF)
【NLP】經(jīng)典分類模型樸素貝葉斯解讀
【NLP】 NLP專欄欄主自述,說不出口的話就交給AI說吧
【NLP】 深度學(xué)習(xí)NLP開篇-循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
【NLP】 NLP中應(yīng)用最廣泛的特征抽取模型-LSTM
【NLP】 聊聊NLP中的attention機制
【NLP】 理解NLP中網(wǎng)紅特征抽取器Tranformer
【技術(shù)綜述】深度學(xué)習(xí)在自然語言處理中的應(yīng)用發(fā)展
總結(jié)
以上是生活随笔為你收集整理的【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】 理解NLP中网红特征抽取器T
- 下一篇: 【AI不惑境】计算机视觉中注意力机制原理