當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】NLP重铸篇之Fasttext

發布時間：2025/3/12 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】NLP重铸篇之Fasttext 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本分類

論文標題：Bag of Tricks for Efficient Text Classification
論文鏈接：https://arxiv.org/pdf/1607.01759.pdf
代碼地址：https://github.com/facebookresearch/fastText
復現代碼地址：https://github.com/wellinxu/nlp_store/blob/master/papers/fasttext.py

文本表示

論文標題：Enriching Word Vectors with Subword Information
論文鏈接：https://arxiv.org/pdf/1607.04606.pdf
代碼地址：https://github.com/facebookresearch/fastText
復現代碼地址：https://github.com/wellinxu/nlp_store/blob/master/papers/fasttext.py

fasttext主要有兩個模型，一個是【Bag of Tricks for Efficient Text Classification】提出的文本分類模型，一個是【Enriching Word Vectors with Subword Information】提出的文本表示模型，其結構跟word2vec非常相似，最大區別是，分類模型添加了詞粒度的ngram特征，表示模型添加了字符粒度的ngram特征（subword特征）。本文會分別介紹fasttext的分類與表示模型，并復現相關代碼，具體可查看https://github.com/wellinxu/nlp_store。

fasttext
文本分類
- 模型結構
- ngram特征
- 論文結果
文本表示
- 模型結構
- subword特征
- 論文結果
fasttext與word2vec結果比較
參考

fasttext

fasttext是facebook在2016年左右提出的模型，在相關代碼里面，主要包含了兩個模型：文本分類模型和文本表示模型，因為兩個模型都在同一個代碼包里，所以都被大家稱為fasttext模型。根據原始論文來看，fasttext的文本分類模型就是word2vec中的cbow+huffman樹的結構，區別在于添加了詞級別的ngram特征（并對ngram特征做了hash處理）并且預測的標簽是具體的類別；而fasttext的文本表示模型就是word2vec中的skip-gram+負采樣的結構，區別在于添加了字符級別的ngram特征（即subword，也進行了hash處理）。因為fasttext與word2vec模型非常相似，所以建議先看【NLP重鑄篇之Word2vec】。

文本分類

【Bag of Tricks for Efficient Text Classification】論文中提出了一種文本分類模型fasttext，可以作為一種高效的文本分類基準，其精度較高，且速度飛快，使用標準的多核CPU，可以在10分鐘內訓練包含10億詞的文本，在一分鐘內可以對包含30多萬類別的500萬句文本進行分類（復現代碼的速度則遠遠不如，原代碼在工程上做了很多優化）。

模型結構

如上圖所示，與word2vec的CBOW結構類似，特征輸入模型后，直接進行求和（或平均）然后就輸出預測模型，為了提高運算速度，當類別比較多的時候，fasttext文本分類模型也采用了層次softmax的方法，具體的也是使用的huffman樹的形式。更多關于COBW結構與huffman樹的loss計算可參考【NLP重鑄篇之Word2vec】，這邊給出前向傳播相關代碼：

????def?call(self,?inputs,?training=None,?mask=None):#?x:［context_len］#?huffman_label:?[label_size,?code_len]#?huffman_index:?[label_size,?code_len]#?y?:?[label_size]#?negative_index:?[negatuve_num]x,?huffman_label,?huffman_index,?y,?negative_index?=?inputsx?=?self.embedding(x)????#?［context_len,?emb_dim］x?=?tf.reduce_sum(x,?axis=-2)????#?[emb_dim]loss?=?0#?huffman樹loss計算if?self.is_huffman:for?tem_label,?tem_index?in?zip(huffman_label,?huffman_index):#?獲取huffman樹編碼上的各個結點參數huffman_param?=?self.huffman_params(tem_index)????#?[code_len,?emb_dim]#?各結點參數與x點積huffman_x?=?tf.einsum("ab,b->a",?huffman_param,?x)????#?[code_len]#?獲取每個結點是左結點還是右結點tem_label?=?tf.squeeze(self.huffman_choice(tem_label),?axis=-1)????#?[code_len]#?左結點：sigmoid(-WX),右結點sigmoid(WX)l?=?tf.sigmoid(tf.einsum("a,a->a",?huffman_x,?tem_label))????#?[code_len]l?=?tf.math.log(l)loss?-=?tf.reduce_sum(l)

當使用模型對文本進行分類的時候，層次softmax也有其優點。

其中表示結點，是的父結點。
如上計算公式，每個結點的概率，都是根結點到當前結點路徑上所有結點的概率乘積，這也就導致了每個結點的概率，一定小于其父結點的概率，那選擇最優類別的時候，通過深度優先遍歷，計算葉子結點概率，并保存最大概率，在遍歷過程中可以丟棄概率小于當前最大概率的分支。基于此，模型的預測代碼為：

????def?predict_one(self,?x,?huffman_tree:?HuffmanTree):x?=?self.embedding(x)??#?［context_len,?emb_dim］x?=?tf.reduce_sum(x,?axis=-2)??#?[emb_dim]#?使用huffman樹做分類ps?=?{}ps[0]?=?1.0maxp,?resultw?=?0,?0for?w,?code?in?huffman_tree.word_code_map.items():index,?curp?=?0,?1.0for?c?in?code:left_index?=?huffman_tree.nodes_list[index]if?left_index?not?in?ps.keys():param?=?tf.squeeze(self.huffman_params(np.array([index])))p?=?tf.sigmoid(tf.einsum("a,a->",?param,?x))p?=?p.numpy()ps[left_index]?=?1?-?pps[left_index?+?1]?=?pindex?=?left_index?+?ccurp?*=?ps[index]if?curp?<?maxp:?breakif?curp?>?maxp:maxp?=?curpresultw?=?wreturn?resultw,?maxp

ngram特征

fasttext分類模型與CBOW最大的不同，則是使用了ngram特征，CBOW丟棄了詞序特征，但如果精確地使用詞序特征會讓計算復雜度提高很多，所以fasttext中使用ngram特征作為附加特征來獲取局部詞序特征信息。具體的，分類中的ngram特征是將連續n個詞作為一個特征添加到模型中，但是ngram的數量巨大，為了減少內存消耗，模型使用hash技巧，將具有同樣hash值的ngram視為同一個特征。在復現過程中，為了簡單，直接使用的python自帶的hash函數，相關ngram特征獲取方式以及hash方式如下：

???def?_get_ngram(self,?alist,?is_train=True):#?獲取alist中包含的ngram特征result,?l?=?set(),?len(alist)for?n?in?self.ngram:for?i?in?range(l?-?n?+?1):w?=?"".join(alist[i:i?+?n])result.add(w)if?is_train:#?如果是訓練階段，則將ngram特征添加到相應map中if?self.is_embedding:self.ngram_num_map[w]?=?self.ngram_num_map.get(w,?0)?+?self.word_num_map[alist[1:-1]]else:self.ngram_num_map[w]?=?self.ngram_num_map.get(w,?0)?+?1return?resultdef?reduce_ngram_num_by_hash(self):#?如果ngram特征數量大于制定數量，則讓具有同樣hash值的ngram特征指向同一個表示向量for?w,?v?in?self.ngram_num_map.items():if?v?>=?self.min?and?w?not?in?self.ngram2id_map.keys():self.ngram2id_map[w]?=?len(self.ngram2id_map)?+?self.voc_sizeif?len(self.ngram2id_map)?>?self.ngram_num:idmap?=?{}for?w?in?self.ngram2id_map.keys():h?=?abs(hash(w))h?=?h?%?self.ngram_num????#?用hash值的最后幾位作為新hash值if?h?not?in?idmap.keys():idmap[h]?=?len(idmap)?+?self.voc_sizeself.ngram2id_map[w]?=?idmap[h]

論文結果

如下面兩圖所示，fasttext在許多文本分類任務上，都有不錯的精度，且速度上會比其他模型快很多很多。下圖只顯示了添加了2gram特征的情況，論文中也有實驗，在Sogou等數據集上，使用3gram特征可以進一步提高準確性；同樣的，論文也實驗了不同維度（下圖中特征是10維）對文本分類效果的影響，一般來說，維度越大效果越好（論文中比較了200維跟50維的效果）。

文本表示

【Enriching Word Vectors with Subword Information】論文提出了一種文本表示模型fasttext。類似wod2vec等模型，在學習詞表示的時候都忽略了詞的形態特征（如詞由哪些結構組成），這就對那些詞匯量大和生僻詞多的語言不友好，也難以處理oov的詞語。而論文中提出的fasttext模型，則使用了subword特征（字符級別的ngram），每一個subword都會學一個表示，最終的詞向量，由該詞所有的subword向量的和來表示。

模型結構

fasttext文本表示模型，是基于word2vec的skip-gram進行擴展，添加了subword特征。為了提高訓練速度，模型也使用了負采樣的方式，根據之前文章【NLP重鑄篇之Word2vec】，負采樣的loss如下：

這是skip-gram結構的負采樣loss，其中表示輸入向量，表示正樣本索引，表示負采樣的索引，表示索引為i的詞向量，表示索引為i的輸出參數向量，s是得分函數。
同樣的，更多關于skip-gram結構與負采樣內容，可參考【NLP重鑄篇之Word2vec】，下面給出前向傳播的代碼：

????def?call(self,?inputs,?training=None,?mask=None):#?x:［context_len］#?huffman_label:?[label_size,?code_len]#?huffman_index:?[label_size,?code_len]#?y?:?[label_size]#?negative_index:?[negatuve_num]x,?huffman_label,?huffman_index,?y,?negative_index?=?inputsx?=?self.embedding(x)????#?［context_len,?emb_dim］x?=?tf.reduce_sum(x,?axis=-2)????#?[emb_dim]loss?=?0#?負采樣loss計算if?self.is_negative:y_param?=?self.negative_params(y)????#?[label_size,?emb_dim]negative_param?=?self.negative_params(negative_index)????#?[negative_num,?emb_dim]y_dot?=?tf.einsum("ab,b->a",?y_param,?x)????#?[label_size]y_p?=?tf.math.log(tf.sigmoid(y_dot))????#?[label_size]negative_dot?=?tf.einsum("ab,b->a",?negative_param,?x)????#?[negative_num]negative_p?=?tf.math.log(tf.sigmoid(-negative_dot))????#?[negative_num]l?=?tf.reduce_sum(y_p)?+?tf.reduce_sum(negative_p)loss?-=?lreturn?loss

subword特征

每一個詞都可以被表示為一組字符級別的ngram集合，為了區分詞的開頭和結尾，會在詞的前后添加"<"和">"兩個字符，同時也會將整個詞添加到ngram集合中去。舉個例子，如果詞為“自然語言”，n為3，此時字符ngram為：<自然、自然語、然語言、語言>、<自然語言>。需要注意的事，“<自然語言>”跟“自然語言”是兩個不同的token，前面是一個整詞，后面是一個詞中的4gram特征。添加了subword特征，改變了skip-gram的輸入（從一個變成多個），那得分函數也有所改變，如下：

其中表示詞w的字符ngram的索引集合，表示索引為g的向量表示，表示索引為c的輸出參數向量。跟分類模型類似，這里也會使用hash函數，將具有同樣hash值的ngram特征用同一個向量表示。在訓練完成后，每個詞的詞向量，則由該詞的所有ngram特征向量之和來表示，對于oov的詞，類似的也用該詞存在的ngram向量之和表示。論文中，ngram的范圍是3-6。
subword的獲取方式以及hash方式與上面ngram一致，fasttext詞向量尤其是某些oov詞語向量的獲取方式如下：

????????#?獲取詞向量(模型訓練完之后)if?self.is_embedding:self.embeddings?=?self.model.embedding.embeddings.numpy()self.word_embeddings?=?[]self.ngram_embeddings?=?{v:?self.embeddings[v]?for?v?in?self.ngram2id_map.values()}for?k,?v?in?self.word_map.items():ngrams?=?self.w2ngram_map[k]ngrams.append(v)nemb?=?[self.embeddings[n]?for?n?in?ngrams]emb?=?np.mean(nemb,?axis=0)self.word_embeddings.append(emb)self.word_embeddings?=?np.array(self.word_embeddings)norm?=?np.expand_dims(np.linalg.norm(self.word_embeddings,?axis=1),?axis=1)self.word_embeddings?/=?norm????#?歸一化def?get_word_emb(self,?words):#?獲取詞向量，當詞不存在時用該詞的ngram之和表示word_emb?=?[]??#?[word_len,?embedding]for?w?in?words:if?w?in?self.word_map.keys():word_emb.append(self.word_embeddings[self.word_map[w]])else:ngrams?=?self._get_ngram("<"?+?w?+?">",?False)indexs?=?[self.ngram2id_map[n]?for?n?in?ngrams?if?n?in?self.ngram2id_map.keys()]tem_emb?=?[self.ngram_embeddings[i]?for?i?in?indexs]emb?=?np.mean(tem_emb,?axis=0)norm?=?np.linalg.norm(emb)emb?/=?normword_emb.append(emb)return?word_emb

論文結果

如上圖所示，論文對比了word2vec跟fasttext模型在各種語言上，人類判斷跟模型計算的相似度得分的相關性，其中sg與cbow分別表示word2vec中的skip-gram與CBOW結構的模型，sisg-與sisg都是fasttext模型，sisg-在處理oov詞的時候直接使用null的向量表示，sisg則使用該詞的ngram向量之和來表示，可看出sisg的結果基本都優于其他結果，側面證明了subword帶來的有效信息。上圖的結果，則顯示了詞向量在不同語言上語義跟句法任務的準確性，可以看出fasttext對大部分語言的句法任務都有顯著提升。

fasttext與word2vec結果比較

根據本文復現的fasttext文本表示模型，以及【NLP重鑄篇之Word2vec】中復現的word2vec模型，基于THUCNews文本分類驗證數據集cnews.val.txt的5000條文本進行訓練，得到的詞向量部分展示結果如下圖所示：
從上圖可以看出，fasttext的結果會偏向于具有相似的subword的詞，比如基金跟政策兩個詞的相似詞，fasttext的結果會偏向包含詞本身的結果，word2vec則不是；另外對于出現頻率較低的詞，但這個詞的subword出現頻率不低，則fasttext的效果略好，如上海大學這個詞；而對于oov的詞，word2vec是給不出結果的，fasttext則能給出相對還可以的結果，如南京大學這個詞。

參考

【1】基于tf2的word2vec模型復現：https://github.com/wellinxu/nlp_store/blob/master/papers/word2vec.py
【2】基于tf2的fasttext模型復現：https://github.com/wellinxu/nlp_store/blob/master/papers/fasttext.py

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取本站知識星球優惠券，復制鏈接直接打開： https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【NLP】NLP重铸篇之Fasttext的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【NLP】NLP文本风格迁移，秒变金庸风
下一篇：本周日，王海峰、朱军、李宏毅等大咖邀你加