k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错
拼寫糾錯功能
本文基于lucene6.1中的spellchcker編寫的使用示例,并介紹功能實現(xiàn)流程,實現(xiàn)類似以下百度中的糾錯
首先我們要有一份詞典數(shù)據(jù),作為正確的詞,供lucene建立索引,詞典可參考file/dictionary.txt文件格式
1. INDEX_STORE_DIR倒排索引存儲路徑
Analyzer analyzer = new StandardAnalyzer();
IndexWriterConfig config = new IndexWriterConfig(analyzer); Directory directory = FSDirectory.open(Paths.get(INDEX_STORE_DIR));
final SpellChecker sp = new SpellChecker(directory, new NGramDistance()); BufferedReader reader = Files.newBufferedReader(Paths.get(DIC_STORE_DIR), Charset.forName("gbk")); sp.indexDictionary(new PlainTextDictionary(reader), config, true);
以Today為例,看一下lucene索引里存儲了怎樣的數(shù)據(jù) ? ? ? ?至于n的取值,參考以下兩個方法,l為詞的長度 ? ?`` private static int getMin(int l) { if (l > 5) { return 3; } if (l == 5) { return 2; } return 1; }
private static int getMax(int l) {
if (l > 5) {
return 4;
}
if (l == 5) {
return 3;
}
return 2;
}
``
構(gòu)造Document 首先Field f = new StringField(F_WORD, text, Field.Store.YES);會創(chuàng)建word字段,保存“Today”詞原值,用于查詢時返回 ? ?其次構(gòu)建gram{getMin<=n<=getMax}字段,例如n=2時,構(gòu)建的gram2字段存儲的值為To,od,da,ay,當(dāng)然若是單詞開頭還會構(gòu)建start2字段取值為To,單詞結(jié)尾還會構(gòu)建end2字段取值ay ? ? ?單詞Today(2<=n<=3)索引中的存儲內(nèi)容如下:
Filed | Values
--------------------------------------------
word | Today
start2 | To
ngram2 | To,od,da,ay end2 | ay start3 | Tod ngram3 | Tod,oda,day end3 | day
3. 測試
以“Todey”為例介紹檢索過程 ? ?檢索時同樣會生成Todey的所有ngram片段,最終構(gòu)造的query如下 (start2:To)^2.0 (end2:ey)^1.0 gram2:To gram2:od gram2:de gram2:ey (start3:Tod)^2.0 (end3:dey)^1.0 gram3:Tod gram3:ode gram3:dey ? ? ? ?召回所有結(jié)果后,會計算召回的單詞與Todey的ngram-distance,若大于等于DEFAULT_ACCURACY = 0.5f精度才進行返回,精度可以通過suggestSimilar(String word, int numSug, float accuracy)方法傳入自定義的取值
最終返回結(jié)果:Today,Tomorrow
總結(jié)
以上是生活随笔為你收集整理的k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java自动关闭吗_JAVA问题--浏览
- 下一篇: mysql 常用优化方案_项目中常用的