余弦距离
余弦距離,也稱為余弦相似度,是用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小的度量。
向量,是多維空間中有方向的線段,如果兩個(gè)向量的方向一致,即夾角接近零,那么這兩個(gè)向量就相近。而要確定兩個(gè)向量方向是否一致,這就要用到余弦定理計(jì)算向量的夾角。
余弦定理描述了三角形中任何一個(gè)夾角和三個(gè)邊的關(guān)系。給定三角形的三條邊,可以使用余弦定理求出三角形各個(gè)角的角度。假定三角形的三條邊為a,b和c,對(duì)應(yīng)的三個(gè)角為A,B和C,那么角A的余弦為:
如果將三角形的兩邊b和c看成是兩個(gè)向量,則上述公式等價(jià)于:
其中分母表示兩個(gè)向量b和c的長(zhǎng)度,分子表示兩個(gè)向量的內(nèi)積。
舉一個(gè)具體的例子,假如新聞X和新聞Y對(duì)應(yīng)向量分別是:
x1, x2, ..., x6400和
y1, y2, ..., y6400
則,它們之間的余弦距離可以用它們之間夾角的余弦值來表示:
當(dāng)兩條新聞向量夾角余弦等于1時(shí),這兩條新聞完全重復(fù)(用這個(gè)辦法可以刪除爬蟲所收集網(wǎng)頁中的重復(fù)網(wǎng)頁);當(dāng)夾角的余弦值接近于1時(shí),兩條新聞相似(可以用作文本分類);夾角的余弦越小,兩條新聞越不相關(guān)。
總結(jié)
- 上一篇: 剖析ext4文件系统
- 下一篇: Linux命令——字符串反转