【NLP】NLP重铸篇之Fasttext
論文標題:Bag of Tricks for Efficient Text Classification
論文鏈接:https://arxiv.org/pdf/1607.01759.pdf
代碼地址:https://github.com/facebookresearch/fastText
復現代碼地址:https://github.com/wellinxu/nlp_store/blob/master/papers/fasttext.py
論文標題:Enriching Word Vectors with Subword Information
論文鏈接:https://arxiv.org/pdf/1607.04606.pdf
代碼地址:https://github.com/facebookresearch/fastText
復現代碼地址:https://github.com/wellinxu/nlp_store/blob/master/papers/fasttext.py
fasttext主要有兩個模型,一個是【Bag of Tricks for Efficient Text Classification】提出的文本分類模型,一個是【Enriching Word Vectors with Subword Information】提出的文本表示模型,其結構跟word2vec非常相似,最大區別是,分類模型添加了詞粒度的ngram特征,表示模型添加了字符粒度的ngram特征(subword特征)。本文會分別介紹fasttext的分類與表示模型,并復現相關代碼,具體可查看https://github.com/wellinxu/nlp_store。
fasttext
文本分類
模型結構
ngram特征
論文結果
文本表示
模型結構
subword特征
論文結果
fasttext與word2vec結果比較
參考
fasttext
fasttext是facebook在2016年左右提出的模型,在相關代碼里面,主要包含了兩個模型:文本分類模型和文本表示模型,因為兩個模型都在同一個代碼包里,所以都被大家稱為fasttext模型。根據原始論文來看,fasttext的文本分類模型就是word2vec中的cbow+huffman樹的結構,區別在于添加了詞級別的ngram特征(并對ngram特征做了hash處理)并且預測的標簽是具體的類別;而fasttext的文本表示模型就是word2vec中的skip-gram+負采樣的結構,區別在于添加了字符級別的ngram特征(即subword,也進行了hash處理)。因為fasttext與word2vec模型非常相似,所以建議先看【NLP重鑄篇之Word2vec】。
文本分類
【Bag of Tricks for Efficient Text Classification】論文中提出了一種文本分類模型fasttext,可以作為一種高效的文本分類基準,其精度較高,且速度飛快,使用標準的多核CPU,可以在10分鐘內訓練包含10億詞的文本,在一分鐘內可以對包含30多萬類別的500萬句文本進行分類(復現代碼的速度則遠遠不如,原代碼在工程上做了很多優化)。
模型結構
如上圖所示,與word2vec的CBOW結構類似,特征輸入模型后,直接進行求和(或平均)然后就輸出預測模型,為了提高運算速度,當類別比較多的時候,fasttext文本分類模型也采用了層次softmax的方法,具體的也是使用的huffman樹的形式。更多關于COBW結構與huffman樹的loss計算可參考【NLP重鑄篇之Word2vec】,這邊給出前向傳播相關代碼:
當使用模型對文本進行分類的時候,層次softmax也有其優點。
其中表示結點,是的父結點。
如上計算公式,每個結點的概率,都是根結點到當前結點路徑上所有結點的概率乘積,這也就導致了每個結點的概率,一定小于其父結點的概率,那選擇最優類別的時候,通過深度優先遍歷,計算葉子結點概率,并保存最大概率,在遍歷過程中可以丟棄概率小于當前最大概率的分支。基于此,模型的預測代碼為:
ngram特征
fasttext分類模型與CBOW最大的不同,則是使用了ngram特征,CBOW丟棄了詞序特征,但如果精確地使用詞序特征會讓計算復雜度提高很多,所以fasttext中使用ngram特征作為附加特征來獲取局部詞序特征信息。具體的,分類中的ngram特征是將連續n個詞作為一個特征添加到模型中,但是ngram的數量巨大,為了減少內存消耗,模型使用hash技巧,將具有同樣hash值的ngram視為同一個特征。在復現過程中,為了簡單,直接使用的python自帶的hash函數,相關ngram特征獲取方式以及hash方式如下:
???def?_get_ngram(self,?alist,?is_train=True):#?獲取alist中包含的ngram特征result,?l?=?set(),?len(alist)for?n?in?self.ngram:for?i?in?range(l?-?n?+?1):w?=?"".join(alist[i:i?+?n])result.add(w)if?is_train:#?如果是訓練階段,則將ngram特征添加到相應map中if?self.is_embedding:self.ngram_num_map[w]?=?self.ngram_num_map.get(w,?0)?+?self.word_num_map[alist[1:-1]]else:self.ngram_num_map[w]?=?self.ngram_num_map.get(w,?0)?+?1return?resultdef?reduce_ngram_num_by_hash(self):#?如果ngram特征數量大于制定數量,則讓具有同樣hash值的ngram特征指向同一個表示向量for?w,?v?in?self.ngram_num_map.items():if?v?>=?self.min?and?w?not?in?self.ngram2id_map.keys():self.ngram2id_map[w]?=?len(self.ngram2id_map)?+?self.voc_sizeif?len(self.ngram2id_map)?>?self.ngram_num:idmap?=?{}for?w?in?self.ngram2id_map.keys():h?=?abs(hash(w))h?=?h?%?self.ngram_num????#?用hash值的最后幾位作為新hash值if?h?not?in?idmap.keys():idmap[h]?=?len(idmap)?+?self.voc_sizeself.ngram2id_map[w]?=?idmap[h]論文結果
如下面兩圖所示,fasttext在許多文本分類任務上,都有不錯的精度,且速度上會比其他模型快很多很多。下圖只顯示了添加了2gram特征的情況,論文中也有實驗,在Sogou等數據集上,使用3gram特征可以進一步提高準確性;同樣的,論文也實驗了不同維度(下圖中特征是10維)對文本分類效果的影響,一般來說,維度越大效果越好(論文中比較了200維跟50維的效果)。
文本表示
【Enriching Word Vectors with Subword Information】論文提出了一種文本表示模型fasttext。類似wod2vec等模型,在學習詞表示的時候都忽略了詞的形態特征(如詞由哪些結構組成),這就對那些詞匯量大和生僻詞多的語言不友好,也難以處理oov的詞語。而論文中提出的fasttext模型,則使用了subword特征(字符級別的ngram),每一個subword都會學一個表示,最終的詞向量,由該詞所有的subword向量的和來表示。
模型結構
fasttext文本表示模型,是基于word2vec的skip-gram進行擴展,添加了subword特征。為了提高訓練速度,模型也使用了負采樣的方式,根據之前文章【NLP重鑄篇之Word2vec】,負采樣的loss如下:
這是skip-gram結構的負采樣loss,其中表示輸入向量,表示正樣本索引,表示負采樣的索引,表示索引為i的詞向量,表示索引為i的輸出參數向量,s是得分函數。
同樣的,更多關于skip-gram結構與負采樣內容,可參考【NLP重鑄篇之Word2vec】,下面給出前向傳播的代碼:
subword特征
每一個詞都可以被表示為一組字符級別的ngram集合,為了區分詞的開頭和結尾,會在詞的前后添加"<"和">"兩個字符,同時也會將整個詞添加到ngram集合中去。舉個例子,如果詞為“自然語言”,n為3,此時字符ngram為:<自然、自然語、然語言、語言>、<自然語言>。需要注意的事,“<自然語言>”跟“自然語言”是兩個不同的token,前面是一個整詞,后面是一個詞中的4gram特征。添加了subword特征,改變了skip-gram的輸入(從一個變成多個),那得分函數也有所改變,如下:
其中表示詞w的字符ngram的索引集合,表示索引為g的向量表示,表示索引為c的輸出參數向量。跟分類模型類似,這里也會使用hash函數,將具有同樣hash值的ngram特征用同一個向量表示。在訓練完成后,每個詞的詞向量,則由該詞的所有ngram特征向量之和來表示,對于oov的詞,類似的也用該詞存在的ngram向量之和表示。論文中,ngram的范圍是3-6。
subword的獲取方式以及hash方式與上面ngram一致,fasttext詞向量尤其是某些oov詞語向量的獲取方式如下:
論文結果
如上圖所示,論文對比了word2vec跟fasttext模型在各種語言上,人類判斷跟模型計算的相似度得分的相關性,其中sg與cbow分別表示word2vec中的skip-gram與CBOW結構的模型,sisg-與sisg都是fasttext模型,sisg-在處理oov詞的時候直接使用null的向量表示,sisg則使用該詞的ngram向量之和來表示,可看出sisg的結果基本都優于其他結果,側面證明了subword帶來的有效信息。上圖的結果,則顯示了詞向量在不同語言上語義跟句法任務的準確性,可以看出fasttext對大部分語言的句法任務都有顯著提升。
fasttext與word2vec結果比較
根據本文復現的fasttext文本表示模型,以及【NLP重鑄篇之Word2vec】中復現的word2vec模型,基于THUCNews文本分類驗證數據集cnews.val.txt的5000條文本進行訓練,得到的詞向量部分展示結果如下圖所示:
從上圖可以看出,fasttext的結果會偏向于具有相似的subword的詞,比如基金跟政策兩個詞的相似詞,fasttext的結果會偏向包含詞本身的結果,word2vec則不是;另外對于出現頻率較低的詞,但這個詞的subword出現頻率不低,則fasttext的效果略好,如上海大學這個詞;而對于oov的詞,word2vec是給不出結果的,fasttext則能給出相對還可以的結果,如南京大學這個詞。
參考
【1】基于tf2的word2vec模型復現:https://github.com/wellinxu/nlp_store/blob/master/papers/word2vec.py
【2】基于tf2的fasttext模型復現:https://github.com/wellinxu/nlp_store/blob/master/papers/fasttext.py
總結
以上是生活随笔為你收集整理的【NLP】NLP重铸篇之Fasttext的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】NLP文本风格迁移,秒变金庸风
- 下一篇: 本周日,王海峰、朱军、李宏毅等大咖邀你加