Rocchio算法
其基本思想是使用訓練集為每個類構造一個原型向量,構造方法如下:給定一個類,訓練集中所有屬于這個類的文檔對應向量的分量用正數(shù)表示,所有不屬于這個類的文檔對應向量的分量用負數(shù)表示,然后把所有的向量加起來,得到的和向量就是這個類的原型向量,定義兩個向量的相似度為這兩個向量夾角的余弦,逐一計算訓練集中所有文檔和原型向量的相似度,然后按一定的算法從中挑選某個相似度作為界。給定一篇文檔,如果這篇文檔與原型向量的相似度比界大,則這篇文檔屬于這個類,否則這篇文檔就不屬于這個類。Rocchio算法的突出優(yōu)點是容易實現(xiàn),計算(訓練和分類)特別簡單,它通常用來實現(xiàn)衡量分類系統(tǒng)性能的基準系統(tǒng),而實用的分類系統(tǒng)很少采用這種算法解決具體的分類問題。
其基本思想不難解釋,對于一個詞集,和一個分類,總有某些詞,這些詞一旦出現(xiàn)屬于這個分類的可能性就會增加,而另一些詞一旦出現(xiàn)屬于這個分類的可能性就會降低,那么累計這些正面的,和負面的影響因素,最后由文檔分離出的詞向量可以得到對于每個類的一個打分,打分越高屬于該類的可能性就越大.
對于某種二分類特別合適, A, ~A, 任給一個文檔,判斷屬于分類A還是分類~A,可以認為A的特征項均給與正值,~A都給與負值,那么給定一個合理閾值,就很容易做出這種類型的分類.
其基本思想不難解釋,對于一個詞集,和一個分類,總有某些詞,這些詞一旦出現(xiàn)屬于這個分類的可能性就會增加,而另一些詞一旦出現(xiàn)屬于這個分類的可能性就會降低,那么累計這些正面的,和負面的影響因素,最后由文檔分離出的詞向量可以得到對于每個類的一個打分,打分越高屬于該類的可能性就越大.
對于某種二分類特別合適, A, ~A, 任給一個文檔,判斷屬于分類A還是分類~A,可以認為A的特征項均給與正值,~A都給與負值,那么給定一個合理閾值,就很容易做出這種類型的分類.
總結
- 上一篇: sudo应用
- 下一篇: 《星辰傀儡线》人物续:“灭世者”、“疯狂