Word2Vec学习笔记(一)
生活随笔
收集整理的這篇文章主要介紹了
Word2Vec学习笔记(一)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- Word2Vec基本數學內容
- 語言模型
- Hierarchical Softmax 模型
- Negative Sampling 模型
一、Word2Vec基本數學內容
1. Sigmod 函數
&absp;&absp;&absp;&absp;Sigmod函數通常在二分類中應用。它將樣本映射后投影在[0, 1]范圍內,對應樣本所屬的類的概率。函數表達式如下所示:
具體的討論可以參見:
http://blog.csdn.net/chunyun0716/article/details/51580342
2. 貝葉斯公式
P(A|B)=P(B|A)P(A)P(B)
可以參見貝葉斯分類等一系列文章:
1. http://blog.csdn.net/chunyun0716/article/details/51031055
2. http://blog.csdn.net/chunyun0716/article/details/51058948
3. http://blog.csdn.net/chunyun0716/article/details/51111864
3. Huffman 樹和Huffman編碼
下邊這篇博客寫的很詳細了,這里簡單引用一些基本知識:
http://blog.csdn.net/shuangde800/article/details/7341289
定義哈夫曼樹之前先說明幾個與哈夫曼樹有關的概念:
路徑: 樹中一個結點到另一個結點之間的分支構成這兩個結點之間的路徑。
路徑長度:路徑上的分枝數目稱作路徑長度。
樹的路徑長度:從樹根到每一個結點的路徑長度之和。
結點的帶權路徑長度:在一棵樹中,如果其結點上附帶有一個權值,通常把該結點的路徑長度與該結點上的權值 之積稱為該結點的帶權路徑長度(weighted path length)
樹的帶權路徑長度:如果樹中每個葉子上都帶有一個權值,則把樹中所有葉子的帶權路徑長度之和稱為樹的帶
權路徑長度。
一般來說,用n(n>0)個帶權值的葉子來構造二叉樹,限定二叉樹中除了這n個葉子外只能出現度為2的結點。
那么符合這樣條件的二叉樹往往可構造出許多顆,其中帶權路徑長度最小的二叉樹就稱為哈夫曼樹或最優二叉樹.
通過哈夫曼樹來構造的編碼稱為哈弗曼編碼(huffman code)
總結
以上是生活随笔為你收集整理的Word2Vec学习笔记(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: S5PV210开发 -- 交叉编译器
- 下一篇: S5PV210开发 -- Linux d