lda进行图片分类_LDA主题模型
今天來啃硬骨頭了,說說LDA主題模型。本文言簡意賅,沒有太多的數學公式。
學習也不要太多的陷入算法的細枝末節之中,學習復雜的事物,需要從整體去把握。
先列出本文的講解順序。
2.
函數與 Beta函數3.共軛先驗分布
4.二項分布與多項分布
5.Beta分布與Dirichlet分布
6. LDA的解釋
...
相關參考文章:
我是這樣一步步理解--主題模型(Topic Model)、LDA(案例代碼)
如何通俗理解 beta 分布?
把LDA主題模型作為自己的碩士課題,有什么可以做的?
NLP系列(三)LDA主題模型
通俗理解LDA主題模型
1.什么是LDA模型
將文檔集中的每篇文檔的主題以概率分布的形式給出,即將文檔轉化為基于主題的數值向量,每個維度上的主題概率取值就是對特定主題的聚類中心的隸屬度。
然后我們看百度百科中關于LDA主題模型的解釋:
LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。
論文給出了文檔生成模型的例子:
比如事先確定了Arts, Budget, Children, Education這幾個主題,每個主題下對應了多個詞。
然后文檔中每個詞的生成:以一定的概率選取上述某個主題,再以一定的概率選取那個主題下的某個單詞,不斷的重復這兩步,最終生成如下圖所示的一篇文章。不同顏色表示不同主題。
2.
函數與 Beta函數 函數:首先來看
函數(讀作gamma)的定義: 函數可以當成是階乘在實數集上的延拓。在(0-4]區間內圖像如下:Beta函數:
關于Beta分布的理解可以參考這篇:如何通俗理解 beta 分布? - 小杰的回答 - 知乎
總而言之,beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。
Beta分布的概率密度:
其中系數B為:
Beta函數就是先驗分布,加上實驗結果得到后驗分布。
Beta分布的期望是
.3.共軛先驗分布
樸素貝葉斯分類的公式:
: 后驗分布 : 先驗分布 : 似然函數如果后驗分布
與先驗分布 滿足同樣的分布律,那么先驗分布和后驗分布叫做共軛分布。同時,先驗分布叫做似然函數的共軛先驗分布。二項分布的共軛先驗分布是Beta分布.
多項分布的共軛先驗分布是Dirichlet分布.
4.二項分布與多項分布
伯努利分布:又稱為兩點分布,或者0-1分布,伯努利實驗室單次隨機實驗,只有0和1兩種實驗結果,記為1的概率為p,為0的概率為1-p. 比如拋硬幣1次.
二項分布:二項分布是進行n次伯努利實驗,為1的概率為p,為0的概率為1-p.
比如拋硬幣n次.
多項式分布:多項式分布是二項式分布的推廣。進行n次實驗,每次實驗的可能結果有m個。比如擲骰子多次。
5.Beta分布與Dirichlet分布
Beta分布推廣到多項,即Dirichlet分布。
Beta分布:
其中:
Beta分布的期望為:
Dirichlet分布:
其中:
Dirichlet分布的期望為:
是參數向量,共K個.Dirichlet分布的特殊情況為對稱Dirichlet分布,即組成
向量的元素相同。6.LDA的解釋
- 共有m篇文章,一共涉及了K個主題
- 每篇文章(長度為 )都有各自的主題分布,主題分布是多項式分布,該多項式分布的參數服從Dirichlet分布,該Dirichlet分布的參數為
- 每個主題都有各自的詞分布,詞分布為多項分布,該多項分布的參數服從Dirichlet分布,該Dirichlet分布的參數為
- 對于某篇文章中的第n個詞,首先從該文章的主題分布中采樣一個主題,然后在這個主題對應的詞分布中采樣一個詞。不但重復這個隨機生成過程,知道m篇文章全部完成上述過程。
總結
以上是生活随笔為你收集整理的lda进行图片分类_LDA主题模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安卓软件图标修改(安卓软件图标)
- 下一篇: 瘦肉精快速检测卡购买(瘦肉精检测卡备案)