Java实现海明距离简单计算
生活随笔
收集整理的這篇文章主要介紹了
Java实现海明距离简单计算
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文本相似度比較有很多方法,如余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等,海明距離是其中之一。
在信息編碼中,兩個合法代碼對應位上編碼不同的位數稱為碼距,又稱海明距離。
n位的碼字可以用n維空間的超立方體的一個頂點來表示。兩個碼字之間的海明距離就是超立方體兩個頂點之間的一條邊,而且是這兩個頂點之間的最短距離。
對海明距離的應用,最多的是在海量短文本去重上,性能優,主要方法就是對文本進行向量化,或者說把文本的特征抽取出來映射成編碼,然后再對編碼進行異或計算出海明距離。
曾遇到的一個場景是:從龐大的記錄文本中,判斷文本的相似度并做分類。一般做法就是兩兩比較相似度,這時對相似度計算算法的耗時要求就比較高,一旦數據量龐大,就能立見高下。有興趣的,可以試驗下cos、歐式、海明三者在文本相似度判斷方面的性能,比如2000萬記錄的文本。
本文這里的代碼只是簡單的模擬了海明距離的計算過程,參考如下:
package sk.ml;/** 功能:計算兩個文本海明距離 先字符串二進制,再統計差異位數 * 作者:Jason.F* 時間:2017年1月18日*/public class HammingDistance {public static void main(String[] args) {String strA="大數據和人工智能";String strB="小數據和人工智能";String strAB=StrToBinstr(strA);String strBB=StrToBinstr(strB);//對兩個二進制字符串,字符數相同,統計差異數int count=0;int len=strAB.length();for(int i=0;i<len;i++){if(strAB.charAt(i)!=strBB.charAt(i)) count++;}System.out.println("海明距離是:"+count);}//將字符串轉換成二進制字符串,以空格相隔public static String StrToBinstr(String str) {char[] strChar=str.toCharArray();String result="";for(int i=0;i<strChar.length;i++){result +=Integer.toBinaryString(strChar[i]);}return result;} } 執行結果:海明距離是:4
總結
以上是生活随笔為你收集整理的Java实现海明距离简单计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习知识点(六)增广矩阵求解拉格朗日
- 下一篇: 机器学习笔记(四)决策树