生成式模型:LDA与LSI-SVD分解
??????? 原文鏈接:http://blog.sina.com.cn/s/blog_5033f3b40101flbj.html
??????? 文章圖文并茂,我就不轉(zhuǎn)載了!!!
? ? ? ? 科普文:判別式模型與生成式模型區(qū)別;
? ? ? ? 分類器的數(shù)學(xué)表達式為:給定輸入變量 X以及分類變量?Y,求?P(Y|X)。判別式模型通過直接數(shù)據(jù)回歸分析,直接估算?P(Y|X)。生成式模型的思想是先估計聯(lián)合概率密度?P(X,Y),再通過貝葉斯公式計算邊緣分布,求出?P(Y|X)。比如最大熵模型為判別式模型,而HMM、LDA、貝葉斯網(wǎng)絡(luò)等為生成式模型。
?
LSI-Latent Semantic Indexing.淺語義分析
針對缺點1,LSI(1990)將矩陣X進行奇異值分解,然后只取一部分作為其特征,此過程其實就相當(dāng)于對X進行pca降維。將原始的向量轉(zhuǎn)化到一個低維的隱含語義空間中,而保留下來的維度(根據(jù)奇異值大小決定)所對應(yīng)的奇異值就對應(yīng)了每個‘隱含語義’的權(quán)重,去掉的那些維度就相當(dāng)于把那些不重要的‘隱含語義’的權(quán)重賦值為0.
LSI的作者Deerwester稱由LSI得到的特征能夠捕獲一些基本的語義概念,例如同義詞等。個人理解,這是由pca的性質(zhì)決定的,。
LSI如其名字Latent Semantic Indexing, 旨在在詞頻矩陣X的基礎(chǔ)上找出latent semantic,潛藏的語義信息。
其缺點是:不能解決多義詞問題;
個人理解:這種方法就像詞包模型一樣,有一定的道理,但沒有明確化,不像概率模型一樣具體化。原文中說‘Given a generative model of text, however, it isnot clear why one should adopt the LSImethodology’,個人覺得就是說他的理論基礎(chǔ)不夠明白,所以后續(xù)推出PLSI,就是能夠從數(shù)學(xué)上,從理論上具有嚴格意義的說明是怎么回事,到底是為什么有效,又怎么得出理論解。
?
模型的擴展性:如何解決長尾數(shù)據(jù)問題?
?????? 相關(guān)文章:搜索引擎算法——淺談?wù)Z義主題計算
?
總結(jié)
以上是生活随笔為你收集整理的生成式模型:LDA与LSI-SVD分解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高等数学——手撕牛顿莱布尼茨公式
- 下一篇: AI:**消灭程序员需要一百年吗?