plsa原理
LSI:Latent Semantic Indexing
LSI就是LSI
以上只是同一個模型的不同稱謂
PLSI:Probabilistic Latent Semantic Indexing
PLSI就是PLSA
以上只是同一個模型的不同稱謂
PLSA的原文是:
《Probabilistic Latent Semantic Indexing》
這個論文有兩個版本,
一個是1999年版本,
一個是2017年版本,
雖然內容一致,但是內容的先后順序不一致。
然后注意:
LSI和PLSI提出的初衷不是為了文本聚類,而是為了文獻搜索服務的,這個叫
information retrieval
所以原文中的矩陣是這樣的:
| title\word | book | dads | rich |
| T1 | P(T1|book) | ||
| T2 | P(T2|dads) | ||
| T3 | |||
| T4 |
注意:這里我為啥不從原文截圖,而是自己親手畫一個表格?
這是因為原文中的插圖(沒有轉置)與其SVD分解時的公式不匹配,所以需要我自己畫一個,請務必注意這一點。
也就是說,原文中的矩陣是左側是文檔名,上冊是各種單詞。
所以SVD分解是這樣的:
P=U^∑^V^TP=\hat{U}\hat{\sum}\hat{V}^{T}P=U^∑^?V^T
=(P(di∣zk))i,k?diag(P(zk))k?(P(wj∣zk))j,kT=(P(d_i|z_k))_{i,k}·diag(P(z_k))_k·(P(w_j|z_k))_{j,k}^T=(P(di?∣zk?))i,k??diag(P(zk?))k??(P(wj?∣zk?))j,kT?
幹嘛的?就是希望你搜索文獻的時候,搜了“蘋果”,能出來“紅富士養殖技術”之類的相關的文章,爲了解決“接近詞”的問題的。
#########################################
下面進入正題,由於后續研究者靈活地使用了這個文章中的內容,所以矩陣變成
| word\title | T1 | T2 | T3 |
| book | P(book|T1) | ||
| dads | P(dads|T2) | ||
| rich | |||
| market |
你沒看錯,第二個矩陣就是第一個矩陣的轉置
其他空缺依次類推,懶得全部寫了。
好了,對上述矩陣進行SVD分解:
P=U^∑^V^TP=\hat{U}\hat{\sum}\hat{V}^{T}P=U^∑^?V^T
=(P(wi∣zk))i,k?diag(P(zk))k?(P(dj∣zk))j,kT=(P(w_i|z_k))_{i,k}· diag(P(z_k))_k·(P(d_j|z_k))_{j,k}^T=(P(wi?∣zk?))i,k??diag(P(zk?))k??(P(dj?∣zk?))j,kT?
wiw_iwi?:某個詞匯
zkz_kzk?:裝x說法是“隱變量“(latent variable),這里其實是代表文檔聚類數或者詞匯聚類數
did_idi?:某個文檔
概率表達式解釋:
P(dj∣zk)P(d_j|z_k)P(dj?∣zk?):第k類文檔中,第j個文檔抽中的概率
其他以此類推。
#######################################
一句話概括EM算法:
就是弄一個目標函數(取名叫”E-步“)
求函數的最大值(取名叫”M-步“)
沒啥高深的含義。
然後說下 Tempered-EM算法,
這個東西比較惡心,谷歌上面也沒有特別詳細的資料,
作者只是略微提到了從物理系統中來,使用了“困惑度”
資料如下:
這個FβF_\betaFβ?的表達式具體的嚴格的推導已經不可考,這個東西幹嘛呢?
在EM算法運行的時候,使用FβF_\betaFβ?作爲一個“過擬合”的判據,當這個FβF_\betaFβ?不再變大的時候,就停止迭代。
這種無監督學習的“過擬合”是怎麼回事?
其實就是SVD的時候z的維度太大,也就是說,例如我有一萬篇文檔,我設置聚類數值爲10000種,那麼這個時候就肯定是過擬合了,這個和”有監督學習“的過擬合有些不太一樣,不理解的可以參考Kmeans過擬合的相關資料。
雖然FβF_\betaFβ?的推導我們不清楚,但是依然可以定性的理解它:
當z的取值很大,也就是聚類數值設定很大的時候,我們會發現FβF_\betaFβ?會變得非常小。
所以總結該式規律有:
z上限大=文檔聚類數大=FβF_\betaFβ?很小=過擬合
z上限小=文檔聚類數小=FβF_\betaFβ?很大=欠擬合
總結
- 上一篇: 3分钟搞懂LSI原理
- 下一篇: LDA主题模型原文解读