文本向量表示及TFIDF词汇权值
文本相似計算是進行文本聚類的基礎,和傳統結構化數值數據的聚類方法類似,文本聚類是通過計算文本之間"距離"來表示文本之間的相似度并產生聚類。文本相似度的常用計算方法有余弦定理和Jaccard系數。但是文本數據與普通的數值數據或類屬數據不同,文本數據是一種半結構化數據,在進行文本挖掘之前必須要對文本數據源進行處理,如分詞、向量化表示等,其目的就是使用量化的數值來表達這些半結構化的文本數據。使其適用于分析計算。
進行文本數據挖掘或信息檢索的時候,會對文本進行分詞處理,經過分詞處理以后,一個文本的表示就變為由若干關鍵詞(Token)來表示的多維向量。可表示為:d(t1,t2,…,tn),d表示被處理的文檔,tn表示在d中出現過至少一次的關鍵詞。在文本挖掘過程中會處理大量的文檔,記為d1,d2,…,dm。經分詞后,這些文檔的向量表示就變為:dm(t1,t2,…,tn),m表示文檔個數、n表示某個文檔中關鍵詞的個數。下面的例子中有兩個包含若干關鍵詞的文檔,在本文的后面會一直使用這個例子所提供的數據。
d1 (A, B, C, C, S, D, A, B, T, S, S, S, T, W, W)
d2(C, S, S, T, W, W, A, B, S, B)
在了解了文檔的向量表示以后再來看看TFIDF加權統計方法(在一些簡單的處理方法中,可以只通過詞頻來計算文本間的相似度,不過當某個關鍵詞在兩篇長度相差很大的文本中出現的頻率相近時會降低結果的準確性)。TFIDF是一種加權技術,它通過統計的方法來計算和表達某個關鍵詞在文本中的重要程度。TFIDF是由兩部分組成,一部分是TF(Token Frequency),表示一個詞在文檔中出現的次數,即詞頻。另一部分是IDF(Inverse Document Frequency),表示某個詞出現在多少個文本中(或者解釋為有多少個文本包含了這個詞),即逆向文檔頻率,通常由公式IDFt=log((1+|D|)/|Dt|),其中|D|表示文檔總數,|Dt|表示包含關鍵詞t的文檔數量。TFIDF的值就是由這兩部分相乘得到的,還要指出的是TFIDF不是指某一個特定的公式,而是表示了一系列基于基本TFIDF方法變形(分別對TF和IDF這兩部分進行處理)的公式的集合,而TFIDFtd=tftd*ln(idft)(t關鍵詞在文本d中的詞頻乘以t的逆向文檔頻率的自然對數)是被多數系統證明是最有效的一個公式。現在來看看上面那個例子中給出的數據,由例子給出的數據可得到詞頻矩陣如下:
| ? | d1 | d2 |
| A | 2 | 1 |
| B | 2 | 2 |
| C | 2 | 1 |
| D | 1 | 0 |
| S | 4 | 3 |
| T | 2 | 1 |
| W | 2 | 2 |
?
????通常需要把詞頻數據正規化,以防止詞頻數據偏向于關鍵詞較多即較長的文本。如某一個詞在文檔d1中出現了100次,在d2中出現了100次,僅從詞頻看來這個詞在這兩個文檔中的重要性相同,然而再考慮另一個因素,就是d1的關鍵詞總數是1000,而d2的關鍵詞總數是100000,所以從總體上看,這個詞在d1和d2中的重要性是不同的。因此就需要對詞頻做正規化處理。正規化處理的方法是用詞頻除以所有文檔的關鍵詞總數,將上面的詞頻矩陣進行正規化處理后,結果如下表:
?
| ? | d1 | d2 |
| A | 0.08 | 0.04 |
| B | 0.08 | 0.08 |
| C | 0.08 | 0.04 |
| D | 0.04 | 0.00 |
| S | 0.16 | 0.12 |
| T | 0.08 | 0.04 |
| W | 0.08 | 0.08 |
| 文檔中關鍵詞總數=25 | ||
?
????然后再計算每個關鍵詞對應的逆向文檔頻率即IDF的值。如下表所示:
| ? | ln |
| A | 0.4 |
| B | 0.4 |
| C | 0.4 |
| D | 1.1 |
| S | 0.4 |
| T | 0.4 |
| W | 0.4 |
?
????最后將正規化后的詞頻與IDF值相乘,結果如下:
?
| ? | ? | |
| ? | d1 | d2 |
| A | 0.032 | 0.016 |
| B | 0.032 | 0.032 |
| C | 0.032 | 0.016 |
| D | 0.044 | 0.000 |
| S | 0.064 | 0.048 |
| T | 0.032 | 0.016 |
| W | 0.032 | 0.032 |
?
在得到TFIDF權值以后就可以利用這些數據利用余弦定理或Jaccard系數來計算文本之間的相似度以實現文本聚類等標準的文本挖掘算法了。
?
?
?參考:
?http://www.cnblogs.com/SmartBizSoft/archive/2009/05/14/1457161.html
http://zh.wikipedia.org/w/index.php?title=TF-IDF&variant=zh-cn
?
總結
以上是生活随笔為你收集整理的文本向量表示及TFIDF词汇权值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本分类入门(十一)特征选择方法之信息增
- 下一篇: 向量空间模型(VSM)在文档相似度计算上