word2vec 和 doc2vec 相似和区别
Word2vec 算法
??????? CBOW 和 Skip-Gram模型
CBOW通過周圍詞找到當前詞,Skip-Gram通過當前詞找到周圍詞,都是使用評估概率找到概率最大的
doc2vec
在word2vec的基礎上增加一個段落向量,該模型也有兩個方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)
doc2vec 的c-bow與word2vec的c-bow模型的區別
在訓練過程中增加了每個句子的id(向量),計算的時候將paragraph vector和word vector累加或者連接起來,作為softmax的輸入
在預測過程,給預測句子分配一個新的paragraph id , 重新利用梯度下降訓練待預測的句子,待收斂后,即得到待測句子的paragraph vector
PV-DM
doc2vec的skip-gram與word2vec的skip-gram模型的區別?
在doc2vec里,輸入都是paragraph vector ,輸出是該paragraph 中隨機抽樣的詞
PV-DBOW
補充知識
One-hot Representation
采用稀疏方式存儲,給每個詞分配一個數字 ID,表示后配合上最大熵、SVM、CRF 等等算法已經很好地完成了 NLP 領域的各種主流任務
缺點 任意兩個詞之間都是孤立的,光從這兩個向量中看不出兩個詞是否有關系,容易發生維數災難
Distributed representation
從原始的詞向量稀疏表示法過渡到低維空間中的密集表示
決了維數災難問題,并且挖掘了word之間的關聯屬性
Reference
https://www.jianshu.com/p/048bff9b0f65
https://www.cnblogs.com/gogoSandy/p/13773327.html
總結
以上是生活随笔為你收集整理的word2vec 和 doc2vec 相似和区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 朋友推荐了一款刷题神器
- 下一篇: web3j contract 使用方法