机器学习中的度量—— 向量距离
??????機器學習是時下流行AI技術中一個很重要的方向,無論是有監督學習還是無監督學習都使用各種“度量”來得到不同樣本數據的差異度或者不同樣本數據的相似度。良好的“度量”可以顯著提高算法的分類或預測的準確率,本文中將介紹機器學習中各種“度量”,“度量”主要由兩種,分別為距離、相似度和相關系數,距離的研究主體一般是線性空間中點;而相似度研究主體是線性空間中向量;相關系數研究主體主要是分布數據。本文主要介紹距離。
1 向量距離
1.1 歐式距離?——從勾股定理而來
??????讓我回憶一下中學時候學過的勾股定理,歷史悠久的勾股定理告訴了如果在一個直角三角形中兩條直角邊分別為\(a\)和\(b\),那么斜邊\(c\)和\(a\)、\(b\)的關系一定滿足\(c^{2} = a^{2} + b^{2}\)
圖1 勾股定理
圖2 成書于宋金時期《測圓海鏡》中的十五個勾股形
??????從直觀上將,圖2中兩個點距離是藍線的長度,而使用勾股定理可以計算出如圖2的兩個數據點之間距離。
圖3 可汗學院距離教程中樣例
??????根據勾股定理很容易求出上面兩個點距離為如下式子表示:
??????這個最直觀的距離還有一個正式稱呼,歐幾里得距離(Euclidean distance),上面是二維空間中歐式距離,更為一般的情況為:在笛卡爾坐標系(Cartesian Coordinates)中如果點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn) 是兩個歐式空間的點,則點x和點y的歐式距離為:
\[\begin{array}{l} {d_{Euclidean}}\left( {x,y} \right){\rm{ = }}{d_{Euclidean}}\left( {y,x} \right) = \sqrt {{{\left| {{x_1} - {y_1}} \right|}^2} + {{\left| {{x_2} - {y_2}} \right|}^2} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^2}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \; = \sqrt {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^2}} } \\ \end{array}\]
??????笛卡爾坐標系: 一種正交坐標系。參閱圖4,二維的直角坐標系是由兩條相互垂直、相交于原點的數線構成的。在平面內,任何一點的坐標是根據數軸上對應的點的坐標設定的
圖4 一個直角坐標系
1.2 曼哈頓距離??——行走在紐約曼哈頓街道上
??????曼哈頓距離(Manhattan distance)是由十九世紀的赫爾曼·閔可夫斯基所創辭匯,用以標明兩個點上在標準坐標系上的絕對軸距之總和。例如在平面上,坐標(x1, x2)的點P1與坐標(y1, y2)的點P2的曼哈頓距離為:
\[\left| {{x_1} - {y_1}} \right| + \left| {{x_2} - {y_2}} \right|\]
??????如圖所示為曼哈頓與歐幾里得距離。由曼哈頓距離和歐式距離定義可知兩點曼哈頓距離為12,其中紅、藍與黃線分別表示幾種不同曼哈頓距離;兩點的歐式距離為6√2其中綠線表示唯一的歐幾里得距離。
圖5 曼哈頓與歐幾里得距離
圖6 到藍點的曼哈頓距離為2的所有點構成的“單位圓”
??????上面是二維空間中曼哈頓距離,更為一般的情況為:在笛卡爾坐標系中如果點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn) 是兩個歐式空間點,則點x和點y的曼哈頓距離為:
\[\begin{array}{l} {d_{Manhat\tan }}\left( {x,y} \right){\rm{ = }}{d_{Manhat\tan }}\left( {y,x} \right) = \left| {{x_1} - {y_1}} \right| + \left| {{x_2} - {y_2}} \right| + \cdots + \left| {{x_n} - {y_n}} \right| \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\; = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} \\ \end{array}\]
1.3 切比雪夫距離——來下盤國際象棋吧
??????切比雪夫距離(Chebyshev distance)或是向量空間中的一種度量,二個點之間的距離定義為其各座標數值差的最大值]。切比雪夫距離得名自俄羅斯數學家切比雪夫。例如在平面上,坐標(x1, x2)的點P1與坐標(y1, y2)的點P2的切比雪夫距離為:
\[\max \left( {\left| {{x_1} - {y_1}} \right|,\left| {{x_2} - {y_2}} \right|} \right)\]
??????若將國際象棋棋盤放在二維直角座標系中,格子的邊長定義為1,座標的x軸及y軸和棋盤方格平行,原點恰落在某一格的中心點,則王從一個位置走到其他位置需要的步數恰為二個位置的切比雪夫距離,因此切比雪夫距離也稱為棋盤距離。由于王可以往斜前或斜后方向移動一格,因此可以較有效率的到達目的的格子。例如位置F6和位置E2的切比雪夫距離為4。任何一個不在棋盤邊緣的位置,和周圍八個位置的切比雪夫距離都是1。
圖7 國際象棋棋盤上二個位置間的切比雪夫距離
??????上面是二維空間中切比雪夫距離,更為一般情況為:在笛卡爾坐標系中如果點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn) 是兩個歐式空間點,則點x和點y切比雪夫距離為:
1.4 閔科夫斯基距離?——大統一論
??????閔科夫斯基距離(Minkowski distance)實際上是歐式距離、曼哈頓距離、切比雪夫距離在笛卡爾坐標系下的一種推廣,閔科夫斯基距離將上述所以距離都統一在一個框架中。在笛卡爾坐標系中如果點x = (x1, x2,..., xn) 和點 y = (y1, y2, ..., yn)是兩個歐式空間點,則點x和點y的p階閔科夫斯基距離為:
\[\begin{array}{l} {d_{p - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{p - Minkowski}}\left( {y,x} \right) = {\left( {{{\left| {{x_1} - {y_1}} \right|}^p} + {{\left| {{x_2} - {y_2}} \right|}^p} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^p}} \right)^{\frac{1}{p}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\; = {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{\frac{1}{p}}} \\ \end{array}\]
??????當p=1的時候,1階閔科夫斯基距離等價于曼哈度距離
\[\begin{array}{l} {d_{1 - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{1 - Minkowski}}\left( {y,x} \right) = {\left( {{{\left| {{x_1} - {y_1}} \right|}^1} + {{\left| {{x_2} - {y_2}} \right|}^1} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^1}} \right)^{\frac{1}{1}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \left| {{x_1} - {y_1}} \right| + \left| {{x_2} - {y_2}} \right| + \cdots + \left| {{x_n} - {y_n}} \right| \\ \end{array}\]
??????當p=2的時候,2階閔科夫斯基距離等價于歐幾里得距離
\[\begin{array}{l} {d_{2 - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{2 - Minkowski}}\left( {y,x} \right) = {\left( {{{\left| {{x_1} - {y_1}} \right|}^2} + {{\left| {{x_2} - {y_2}} \right|}^2} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^2}} \right)^{\frac{1}{2}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \sqrt {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^2}} } \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \sqrt {{{\left| {{x_1} - {y_1}} \right|}^2} + {{\left| {{x_2} - {y_2}} \right|}^2} + \cdots + {{\left| {{x_n} - {y_n}} \right|}^2}} \\ \end{array}\]
??????當p=∞的時候,∞階閔科夫斯基距離等價于車比雪夫距離
\[\begin{array}{l} {d_{\infty - Minkowski}}\left( {x,y} \right){\rm{ = }}{d_{\infty - Minkowski}}\left( {y,x} \right) = \mathop {\lim }\limits_{x \to \infty } {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^p}} } \right)^{\frac{1}{p}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \;\;\;\;\;\;\; = \max \left( {\left| {{x_1} - {y_1}} \right|,\left| {{x_2} - {y_2}} \right|, \cdots ,\left| {{x_n} - {y_n}} \right|} \right) \\ \end{array}\]
轉載于:https://www.cnblogs.com/Kalafinaian/p/10970924.html
總結
以上是生活随笔為你收集整理的机器学习中的度量—— 向量距离的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ant-design如果按需加载组件
- 下一篇: 深入理解JS中this关键字