GloVe: Global Vectors for Word Representation
GloVe是一種用于獲取單詞向量表示的無監(jiān)督學習算法。用于最近鄰居評估的相似性度量產(chǎn)生一個量化兩個詞的相關性的單個標量。兩個詞向量之間的向量差是一組更大的判別數(shù)的自然而簡單的候選者。 GloVe的設計目的是使這樣的矢量差盡可能多地捕獲兩個單詞并列所指定的含義。盡管TextCNN能夠在很多任務里面能有不錯的表現(xiàn),但CNN有個最大問題是固定 filter_size 的視野,一方面無法建模更長的序列信息,另一方面 filter_size 的超參調節(jié)也很繁瑣。Bi-directional RNN(實際使用的是雙向LSTM)從某種意義上可以理解為可以捕獲變長且雙向的“n-gram” 信息。Pytorch中nn.Embedding.weight隨機初始化方式是標準正態(tài)分布,即均值μ=0,方差σ=1的正態(tài)分布。GloVe本質上是具有加權最小二乘目標的對數(shù)雙線性模型。GloVe的訓練目標是學習單詞向量,使其點積等于單詞共現(xiàn)概率的對數(shù)。GloVe是將count based* 和 direct prediction**的優(yōu)勢結合起來提出的一種方法,其目標函數(shù)如下:J(θ)=。其中表示詞i和詞j共同出現(xiàn)的頻次,f是如下所示的一個函數(shù):對于任意的詞i和詞j,假如有第三個詞k ,如果詞 k與詞i比詞k與詞 j有更深的關聯(lián),那么我們可以輕易得出一個結論,即,?且這個比值較大,反之亦然。若詞k與他們兩者的關系都不大,則我們不難想象,?。向量空間本質都是線性的。word2Vecword2Vec? 是一種預測型模型,在計算loss時,一般希望其window_size內的單詞的概率能夠盡可能的高,可以用SGDSGD 不斷訓練這個前向神經(jīng)網(wǎng)絡,使其能夠學習到較好的word_repesentation。相比于RNN來說,CNN的窗口滑動完全沒有先后關系,不同卷積核之前也沒有相互影響,因此其具有非常高的并行自由度,這是其非常好的一個優(yōu)點。LSTM的局限性:時序性的結構一方面使其很難具備高效的并行計算能力(當前狀態(tài)的計算不僅要依賴當前的輸入,還要依賴上一個狀態(tài)的輸出),另一方面使得整個LSTM模型(包括其他的RNN模型,如GRU)總體上更類似于一個馬爾可夫決策過程,較難以提取全局信息。單個的Transformer Block主要由兩部分組成:多頭注意力機制(Multi-Head Attention)和前饋神經(jīng)網(wǎng)絡(Feed Forward)。
總結
以上是生活随笔為你收集整理的GloVe: Global Vectors for Word Representation-学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。