词权重计算及应用
本文討論如何計算詞(有時候稱特征向量)權(quán)重和向量空間模型及其應(yīng)用。本文的“文檔”是指查詢對象,它們可以使一條條單獨(dú)的記錄或者是一本書的各章,還可以是一個網(wǎng)頁,或者xml文件等。
1 歸一化
在討論詞權(quán)重和向量空間模型前需要先了解下歸一化的概念。歸一化(normailization)方法有兩種形式。第一種形式是把數(shù)變?yōu)椋?,1)之間的小數(shù),方便計算。第二種是把有量綱(量綱是指單位)表達(dá)式變?yōu)闊o量綱表達(dá)式,這樣歸一化后統(tǒng)一了單位,方便比較,而且歸一化后比較的數(shù)值才有意義。
總結(jié)
- 上一篇: 堆内存与栈内存的区别
- 下一篇: 为什么通常牛顿法比梯度下降法能更快的收敛