[搜索]字符串的相似度问题-从编程之美说起
生活随笔
收集整理的這篇文章主要介紹了
[搜索]字符串的相似度问题-从编程之美说起
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在《編程之美》之3.3講到了計算字符串的相似度,請看下圖
原文作者做了很詳細的解釋,有興趣的朋友可以參考原文。
其實,總結為一點,是求兩個字符的編輯距離,關于編輯距離,可以參考這兒
http://zh.wikipedia.org/wiki/%E7%B7%A8%E8%BC%AF%E8%B7%9D%E9%9B%A2
求兩個字符串的編輯距離是有公式的,公式如下:
所以,根據這個公式,我們實現代碼為:(C++)
int minimum(int a,int b,int c) {return min(a,min(b,c)); } int LevenshteinDistance(const char* s, int len_s, const char* t, int len_t) {/* base case: empty strings */if (len_s == 0) return len_t;if (len_t == 0) return len_s;int cost = 0;/* test if last characters of the strings match */if (s[len_s-1] == t[len_t-1])cost = 0;elsecost = 1;/* return minimum of delete char from s, delete char from t, and delete char from both */return minimum(LevenshteinDistance(s, len_s - 1, t, len_t ) + 1,LevenshteinDistance(s, len_s , t, len_t - 1) + 1,LevenshteinDistance(s, len_s - 1, t, len_t - 1) + cost); }求出來編輯距離,取倒數就是上面提到的相似度。
總結
以上是生活随笔為你收集整理的[搜索]字符串的相似度问题-从编程之美说起的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [搜索]一种改进的召回率准确率公式计算方
- 下一篇: 也谈1+2+3+...+n的解答