當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word2Vec学习笔记（三）续

發布時間：2025/3/15 编程问答 12 豆豆

生活随笔收集整理的這篇文章主要介紹了 Word2Vec学习笔记（三）续小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

三、（續）Skip-gram模型介紹

????Skip-gram模型并不是和CBOW模型相反的，它們的目的都是計算出詞的向量，只不過在作者的論文中給出的圖看樣子是反的而已。Skip-gram模型是用每個當前詞去預測一定范圍內除當前詞之外前后的詞。同樣的，此模型也是輸出一顆huffman樹，如下圖所示：此圖也借用下圖借用
http://blog.csdn.net/itplus/article/details/37969979

Skip-gram模型的目標函數

????由于Skip-gram的模型輸入是當前詞，目的是預測它周圍的詞，因此，此任務的目標函數如下所示：

L=∑w∈ClogP(context(w)|w)
由于

context(w) 是一個句子，因此，可以將

P(context(w)|w)寫成如下形式：

P(context(w)|w)=∏u∈context(w)P(u|w)
根據hierarchical softmax的討論：

P(u|w)=∏j=2luP(duj|v(u);θj?1)
那么：最終的目標函數可以寫為：

L=∑w∈Clog∏u∈context(w)∏j=2luP(dwj|v(u);θj?1)

這里，θ,v(w)的更新公式先留著，待推導完再進行補充。
今天推導了一下，其實和上節中的推導差不多，現將推導過程記錄一下

L=∑w∈Clog∏u∈context(w)∏j=2luP(dwj|v(u);θj?1)=∑w∈C∑u∈context(w)∑j=2lulogP(dwj|v(u);θj?1)=∑w∈C∑u∈context(w)∑j=2lulog{[1?σ(v(w)Tθuj?1)]dujσ(v(w)Tθuj?1)]1?duj}=∑w∈C∑u∈context(w)∑j=2lu{dujlog[1?σ(v(w)Tθuj?1)]+(1?duj)log[σ(v(w)Tθuj?1)]}
令

f=dujlog[1?σ(v(w)Tθuj?1)]+(1?duj)log[σ(v(w)Tθuj?1)],則分別求出

f對

θj 和

v(w)求偏導數：

?f?θuj?1=[1?duj?σ(v(w)Tθuj?1)]v(w)?f?v(w)=[1?duj?σ(v(w)Tθuj?1)]θuj?1
那么

θ和

v(w)的更新公式如下：

θuj?1:=θuj?1+η[1?duj?σ(v(w)Tθuj?1)]v(w)v(w):=v(w)+∑u∈context(w)∑j=2lu[1?duj?σ(v(w)Tθuj?1)]θuj?1

Word2Vec 的重點參考文獻

Efficient Estimation of Word Representations in Vector Spaceh. http://arxiv.org/pdf/1301.3781v3.pdf

Distributed Representations ofWords and Phrases and their Compositionality. https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

Exploiting Similarities among Languages for Machine Translation. http://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/44931.pdf

http://blog.csdn.net/itplus/article/details/37969979

http://www.cnblogs.com/neopenx/p/4571996.html

http://blog.csdn.net/zhoubl668/article/details/24319529

總結

以上是生活随笔為你收集整理的Word2Vec学习笔记（三）续的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C语言再学习 -- 关键字sizeof与
下一篇： C语言再学习 -- printf、sca