python 余弦距离_距离公式汇总以及Python实现
1、余弦距離:
描述:余弦夾角也可以叫余弦相似度。幾何中夾角余弦可用來衡量兩個向量方向的差異,機 器學習中借用這一概念來衡量向量樣本之間的差異。余弦的取值范圍[-1,1],求的兩個向量 的夾角并得出夾角對應的余弦值,次余弦值就可以用來表征這兩個向量的相似性。夾角越小, 趨近于零度,余弦值越接近于 1,方向也就更吻合。反之,夾角越大,余弦值越接近于-1.特 別的:余弦值為 0 兩向量垂直。可以看出,余弦相似度只與方向有關。
公式:
在二維空間中向量 A(x1,y1),B(x2,y2)的夾角余弦公式為:
程序實現:
1 importnumpy as np2 from scipy.spatial.distance importpdist3 from numpy import *
4
5 #余弦距離
6 defcosDistance():7 vec1 = [1,2,3,4]8 vec2 = [5,6,7,8]9
10 print("vec1 =",vec1)11 print("vec2 =",vec2)12
13 #方法一:根據公式
14 dist1 = np.dot(vec1,vec2) / (np.linalg.norm(vec1) *np.linalg.norm(vec2))15 print ("余弦測試結果 dist1 ="+str(dist1))16
17 #方法二:根據scipy庫求解
18 Vec =np.vstack([vec1,vec2])19 dist2 = 1 - pdist(Vec,'cosine')20 print("余弦測試結果 dist2 ="+str(dist2))
2、歐氏距離:
描述:歐里幾得距離或歐幾里得度量是空間兩個點的直線距離。較早的文獻稱畢達哥拉斯度 量。
公式:
推倒到n維向量:
程序實現:
1 importnumpy as np2 from scipy.spatial.distance importpdist3 from numpy import *
4 #歐幾里得距離
5 defoljdDistance():6 vec1 = np.mat([1,2,3,4])7 vec2 = np.mat([5,6,7,8])8
9 print("vec1 =",vec1)10 print("vec2 =",vec2)11
12 #方法一 公式求解
13 dist1 = np.sqrt(np.sum(np.square(vec1 -vec2)))14 print("歐氏距離測試的結果為 dist1 ="+str(dist1))15
16 #方法二 根據scipy庫求解
17 Vec =np.vstack([vec1,vec2])18 dist2 =pdist(Vec)19 print("歐氏距離測試的結果為 dist2 ="+str(dist2))20
21 #方法三 根據公式求解
22 dist3 = sqrt((vec1 - vec2) * (vec1 -vec2).T)23 print("歐氏距離測試的結果為 dist3 ="+str(dist3))
3、曼哈頓距離:
描述:出租車幾何或曼哈頓距離(Manhattan Distance)是由十九世紀的赫爾曼·閔可夫斯基 所創詞匯 ,是種使用在幾何度量空間的幾何學用語,用以標明兩個點在標準坐標系上的絕 對軸距總和。
紅色:曼哈頓距離
綠色:歐氏距離
公式:
推廣到 n 維向量
程序實現:
1 importnumpy as np2 from scipy.spatial.distance importpdist3 from numpy import *
4 #曼哈頓距離
5 defcitybolckDistance():6 vec1 = np.mat([1,2,3,4])7 vec2 = np.mat([5,6,7,8])8
9 print("vec1 =",vec1)10 print("vec2 =",vec2)11
12 #方法一 根據公式求解
13 dist1 = np.sum(np.abs(vec1 -vec2))14 print("曼哈頓距離測試的結果為 dist1 ="+str(dist1))15
16 #方法二 根據scipy庫求解
17 Vec =np.vstack([vec1,vec2])18 dist2 = pdist(Vec,'cityblock')19 print("曼哈頓距離測試的結果為 dist1 ="+str(dist2))20
21 #方法三 根據公式
22 dist3 = sum(abs(vec1 -vec2))23 print("曼哈頓距離測試的結果為 dist1 ="+str(dist3))
4、明可夫斯基距離:
描述:明氏距離又叫做明可夫斯基距離,是歐氏空間中的一種測度,被看做歐氏距離和曼哈 頓距離的一種推廣。
公式化: 兩個 n 維向量 a(x1,x2,…,xn) 與 b(y1y2,…,yn) 之間的曼哈頓距離
也可寫成:
根據變參數的不同,明可夫斯基距離可以表示一類的距離:
1. 當 p = 1 時,就是曼哈頓距離
2. 當 p = 2 時,就是歐氏距離
3. 當 p ->∞時,就是切比雪夫距
程序實現:
importnumpy as npfrom scipy.spatial.distance importpdistfrom numpy import *
#明可夫斯基距離
defminkowskiDistance():
vec1= np.mat([1,2,3,4])
vec2= np.mat([5,6,7,8])print("vec1 =",vec1)print("vec2 =",vec2)#方法一 用scipy庫求解
Vec =np.vstack([vec1,vec2])
dist2= pdist(Vec,'minkowski',p = 1)print("p = 1時scipy庫求解曼哈頓距離,結果是:\t"+str(dist2))#方法二 根據公式求解
dist1 = np.sqrt(np.sum(np.square(vec1 -vec2)))print("平= 2 求解歐氏距離,結果是:\t"+str(dist1))#方法三 根據公式求解 p = 1
dist3 = sum(abs(vec1 -vec2))print("p = 1 公式求解曼哈頓距離,結果是:\t"+str(dist3))#方法四 根據公式求解 p = 2
dist4 = sqrt((vec1 - vec2) * (vec1 -vec2).T)print("p = 2 公式求解歐氏距離,結果是:\t"+str(dist4))
5、切比雪夫距離:
描述:在數學中,切比雪夫距離(Chebyshev distance)或是 L∞度量,是向量空間中的一種 度量,二個點之間的距離定義是其各坐標數值差絕對值的最大值
如圖:
國際象棋棋盤上二個位置間的切比雪夫距離是指王要從一個位子移至另一個位子需要走的步數。由于王可 以往斜前或斜后方向移動一格,因此可以較有效率的到達目的的格子。上圖是棋盤上所有位置距 f6 位置的 切比雪夫距離。
公式化: 二維平面兩點 a(x1,y1) b(x2,y2)之間的切比雪夫距離
程序實現:
1 importnumpy as np2 from scipy.spatial.distance importpdist3 from numpy import *
4 #切比雪夫距離
5 defchebyshevDistance():6 vec1 = np.mat([1,2,3,4])7 vec2 = np.mat([5,6,7,8])8
9 print("vec1 =",vec1)10 print("vec2 =",vec2)11
12 #方法一 根據公式求解
13 dist1 = np.max(np.abs(vec1 -vec2))14 print("公式求解切比雪夫距離:\t"+str(dist1))15
16 #方法二 根據scipy庫求解
17 Vec =np.vstack([vec1,vec2])18 dist2 = pdist(Vec,'chebyshev')19 print("scipy庫求解切比雪夫距離:\t"+str(dist2))
6、杰卡德距離:
描述: 1. 杰卡德相似系數:兩個集合 A 和 B 的交集元素在 A、B 并集中所占的比例,稱為兩個集 合的杰卡德相似系數,用符號 J(A,B)表示。
2. 杰卡德距離:與杰卡德系數相反的概念,用兩個集合中不同元素占所有元素的比例來衡 量兩個集合的區分度,這就是杰卡德距離。
其應用:杰卡德相似系數用在衡量樣本相似度上。
公式化:
程序實現:
1 importnumpy as np2 from scipy.spatial.distance importpdist3 from numpy import *
4 #杰卡德距離
5 defjaccardDistance():6 v1 = np.random.random(10) > 0.5
7 v2 = np.random.random(10) > 0.5
8
9 vec1 =np.asarray(v1,np.int32)10 vec2 =np.asarray(v2,np.int32)11
12 print("vec1 =",vec1)13 print("vec2 =",vec2)14
15 #方法一 根據公式求解
16 up = np.double(np.bitwise_and((vec1 != vec2),np.bitwise_or(vec1 != 0,vec2 !=0)).sum())17 down = np.double(np.bitwise_or(vec1 != 0,vec2 !=0).sum())18 dist1 = (up /down)19 print("公式求解杰卡德距離:\t"+str(dist1))20
21 #方法二 根據scipy庫求解
22 Vec =np.vstack([vec1,vec2])23 dist2 = pdist(Vec,'jaccard')24 print("scipy求解杰卡德距離:\t"+str(dist2))
7、漢明距離
描述:在信息論中兩個等長字符串之間的距離是兩個字符串對應位置的不同字符的個數。換 句話說,也就是將一個字符串換成另一個字符串所需要替換的字符個數。
公式化描述:? 1011101 與 1001001 之間的漢明距離是 2
程序實現:
1 importnumpy as np2 from scipy.spatial.distance importpdist3 from numpy import *
4 #漢明距離
5 defhammingDistance():6 v1 = np.random.random(10)>0.5
7 v2 = np.random.random(10)>0.5
8
9 vec1 =np.asarray(v1,np.int32)10 vec2 =np.asarray(v2,np.int32)11
12 print("vec1 =",vec1)13 print("vec2 =",vec2)14
15 #方法一 根據公式求解
16 dist1 = np.mean(vec1!=vec2)17 print("公式求解漢明距離為:\t"+str(dist1))18
19 #方法二 根據scipy庫求解
20 Vec =np.vstack([vec1,vec2])21 dist2 = pdist(Vec,'hamming')22 print("scipy庫求解漢明距離:\t"+str(dist2))
總結
以上是生活随笔為你收集整理的python 余弦距离_距离公式汇总以及Python实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 层级 统计_MySQL系列(
- 下一篇: 安卓收藏功能怎么实现_从电源芯片的内部设