LSA算法简单理解
文本挖掘的兩個方面應(yīng)用: (1)分類: a.將詞匯表中的字詞按意思歸類(比如將各種體育運動的名稱都歸成一類) b.將文本按主題歸類(比如將所有介紹足球的新聞歸到體育類) (2)檢索:用戶提出提問式(通常由若干個反映文本主題的詞匯組成),然后系統(tǒng)在數(shù)據(jù)庫中進行提問式和預(yù)存的文本關(guān)鍵詞的自動匹配工作,兩者相符的文本被檢出。
文本分類中出現(xiàn)的問題: (1)一詞多義
比如bank 這個單詞如果和mortgage, loans, rates 這些單詞同時出現(xiàn)時,bank 很可能表示金融機構(gòu)的意思。可是如果bank 這個單詞和lures, casting, fish一起出現(xiàn),那么很可能表示河岸的意思。
(2)一義多詞
比如用戶搜索“automobile”,即汽車,傳統(tǒng)向量空間模型僅僅會返回包含“automobile”單詞的頁面,而實際上包含“car”單詞的頁面也可能是用戶所需要的。
LSA原理:
通過對大量的文本集進行統(tǒng)計分析,從中提取出詞語的上下文使用含義。技術(shù)上通過SVD分解等處理,消除了同義詞、多義詞的影響,提高了后續(xù)處理的精度。
流程:
(1)分析文檔集合,建立詞匯-文本矩陣。
(2)對詞匯-文本矩陣進行奇異值分解。
(3)對SVD分解后的矩陣進行降維
(4)使用降維后的矩陣構(gòu)建潛在語義空間
LSA詳細流程: LSA初始矩陣的生成:
(1)生成詞匯庫(以英文文本為例)
a從文本中過濾非英文字母字符;
b過濾禁用詞;
c相同詞根單詞歸一;
d詞匯統(tǒng)計和排序:
e生成詞匯庫
(2)生成詞匯-文本矩陣
由各索引詞在每篇文本中的出現(xiàn)頻率生成詞匯-文本矩陣 X 該矩陣中(第 i行第 j 列的元素數(shù)值aij 表示第 i個索引詞在第 j 篇文本中出現(xiàn)的頻率或者TF-IDF加權(quán)詞頻)
初始矩陣中每一行對應(yīng)一個詞,每列對應(yīng)一篇文章,M個詞和N篇文章可以表示為如下MX N的矩陣
c1: Human machine interface for Lab ABC computer applications
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user-perceived response time to error measurement
m1: The generation of random, binary, unordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey
(1)構(gòu)建詞匯-文本矩陣 (2)使用MATLAB進行奇異值分解然后對其進行降維:
(3)由 T和D得各個詞匯和文本的二維坐標向量為:
根據(jù)以上結(jié)果可以分別實現(xiàn)對于單詞和文本意思的分類
(4)檢索:
提問式 human computer interaction
矩陣表示:Xq[1 0 1 0 0 0 0 0 0 0 0 0]
降維后語義空間向量Dq=Xq*T*S^-1=(0.138 -0.028)
計算向量間夾角后發(fā)現(xiàn)返回文章c1(h1-h9分別是提問式和原文本的向量間夾角,夾角為90度附近說明關(guān)聯(lián)性很差)
參考文獻: a comparative study of TF-IDF,LSI and multi-words for text classfication-- Wen Zhang , Taketoshi Yoshida , Xijin Tang?
數(shù)學(xué)之美(p137-142)--吳軍
LSI潛在語義信息檢索模型--何偉
潛在語義分析在文本信息檢索中的應(yīng)用研究--盧健
潛在語義分析理論研究及其應(yīng)用--陳潔華
文本分類中出現(xiàn)的問題: (1)一詞多義
比如bank 這個單詞如果和mortgage, loans, rates 這些單詞同時出現(xiàn)時,bank 很可能表示金融機構(gòu)的意思。可是如果bank 這個單詞和lures, casting, fish一起出現(xiàn),那么很可能表示河岸的意思。
(2)一義多詞
比如用戶搜索“automobile”,即汽車,傳統(tǒng)向量空間模型僅僅會返回包含“automobile”單詞的頁面,而實際上包含“car”單詞的頁面也可能是用戶所需要的。
LSA原理:
通過對大量的文本集進行統(tǒng)計分析,從中提取出詞語的上下文使用含義。技術(shù)上通過SVD分解等處理,消除了同義詞、多義詞的影響,提高了后續(xù)處理的精度。
流程:
(1)分析文檔集合,建立詞匯-文本矩陣。
(2)對詞匯-文本矩陣進行奇異值分解。
(3)對SVD分解后的矩陣進行降維
(4)使用降維后的矩陣構(gòu)建潛在語義空間
LSA詳細流程: LSA初始矩陣的生成:
(1)生成詞匯庫(以英文文本為例)
a從文本中過濾非英文字母字符;
b過濾禁用詞;
c相同詞根單詞歸一;
d詞匯統(tǒng)計和排序:
e生成詞匯庫
(2)生成詞匯-文本矩陣
由各索引詞在每篇文本中的出現(xiàn)頻率生成詞匯-文本矩陣 X 該矩陣中(第 i行第 j 列的元素數(shù)值aij 表示第 i個索引詞在第 j 篇文本中出現(xiàn)的頻率或者TF-IDF加權(quán)詞頻)
初始矩陣中每一行對應(yīng)一個詞,每列對應(yīng)一篇文章,M個詞和N篇文章可以表示為如下MX N的矩陣
(3)奇異值分解
如下圖將一個大矩陣分成3個小矩陣相乘 的形式。
?
(1)第一個小矩陣X是對詞進行分類的一個結(jié)果,它的每一行表示一個詞,每一列表示一個語義相近的詞類,這一行中每個非零元素表示每個詞在每個語義類中的重要性(或者說相關(guān)性)
如X =? [0.7 0.15;0.22 0.49;0.3 0.03]
則第一個詞和第一個語義類比較相關(guān),第二個詞正好相反,第三個詞與兩個語義都不相關(guān)。
(2)第二個小矩陣B表示詞的類和文章的類之間的相關(guān)性
如B =?[0.7 0.21;0.18 0.63]
則第一個詞的語義類和第一個主題相關(guān),和第二個主題沒有太多關(guān)系,第二個詞的語義類則相反
(3)矩陣Y是對文本進行分類的一個結(jié)果,它的每一行表示一個主題,每一列表示一個文本,這一列每個元素表示這篇文本在不同主題中的相關(guān)性如Y =[0.7 0.15;0.22 0;0.92 0.08]
則第一篇文章屬于第一個主題,第二篇文章和第二個主題非常相關(guān),第三篇文章與兩個主題都不相關(guān)
實例: 對一下九個標題進行分類以及對提問式human?computer?interaction進行檢索 標題(人機互動和圖形)c1: Human machine interface for Lab ABC computer applications
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user-perceived response time to error measurement
m1: The generation of random, binary, unordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey
(1)構(gòu)建詞匯-文本矩陣 (2)使用MATLAB進行奇異值分解然后對其進行降維:
(3)由 T和D得各個詞匯和文本的二維坐標向量為:
根據(jù)以上結(jié)果可以分別實現(xiàn)對于單詞和文本意思的分類
(4)檢索:
提問式 human computer interaction
矩陣表示:Xq[1 0 1 0 0 0 0 0 0 0 0 0]
降維后語義空間向量Dq=Xq*T*S^-1=(0.138 -0.028)
計算向量間夾角后發(fā)現(xiàn)返回文章c1(h1-h9分別是提問式和原文本的向量間夾角,夾角為90度附近說明關(guān)聯(lián)性很差)
參考文獻: a comparative study of TF-IDF,LSI and multi-words for text classfication-- Wen Zhang , Taketoshi Yoshida , Xijin Tang?
數(shù)學(xué)之美(p137-142)--吳軍
LSI潛在語義信息檢索模型--何偉
潛在語義分析在文本信息檢索中的應(yīng)用研究--盧健
潛在語義分析理論研究及其應(yīng)用--陳潔華
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。
?
轉(zhuǎn)載于:https://www.cnblogs.com/sancallejon/p/4963630.html
總結(jié)
- 上一篇: 远程文件下载
- 下一篇: VC++ 19 (VS2015) 编译器