相似性
拓撲相似性
語義相似性(semantic similarity)定義在一組文檔上或者術語上的度量,他們之間的距離基于他們的意義或者語義內容的相似性,而不是語法表示上的相似性。我們可以通過定義拓撲相似性來估計語義相似性。
生物醫學上的應用:它們主要用于比較基因和蛋白質的功能相似性,而不是它們的序列相似性,但它們也正在擴展到其他生物實體,如化合物,解剖實體和疾病等方面。
常用來計算相似性:
1.jaccard 相似性:Jaccard指數也稱為交集交匯點和Jaccard相似系數(Paul Jaccard最初創造的系數),是用于比較樣本集的相似性和多樣性的統計量。 Jaccard系數測量有限樣本集之間的相似性,并將其定義為交點的大小除以樣本集的并集大小:如果AB都是空集的話,也定義為J(A,B)?=?1.
如上圖,如果所交的區域或者說樣本集比較大的話,我們就可以說他們之間的相似性較大。
維基鏈接:https://en.wikipedia.org/wiki/Jaccard_index
2.高斯相似性:高斯核函數的相似性,可見https://www.cnblogs.com/yan2015/p/5182144.html
3.余弦相似性:余弦相似度是衡量內積空間的兩個非零向量之間相似度的度量,它衡量它們之間角度的余弦。具體就是根據詞句的內容以及詞頻,生成向量。計算他們之間的余弦大小,越接近1越相似。更詳細的介紹可點擊鏈接http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
常見的相似性度量:見地址https://blog.csdn.net/xholes/article/details/52708854
總結
- 上一篇: 开放式可插拔规范 (OPS)
- 下一篇: 电机原理及电机拖动实验系统