基于Lucene shingle英文单词NGram Analyzer的实现
生活随笔
收集整理的這篇文章主要介紹了
基于Lucene shingle英文单词NGram Analyzer的实现
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
此例為基于Lucene shingle英文單詞BiGram Analyzer的實現(xiàn)
import java.io.Reader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.LowerCaseFilter; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.WhitespaceTokenizer; import org.apache.lucene.analysis.shingle.ShingleFilter; import org.apache.lucene.util.Version;public final class BiGramAnalyzer extends Analyzer {@Overridepublic TokenStream tokenStream(String fieldName, Reader reader) {TokenStream result = new WhitespaceTokenizer(Version.LUCENE_36, reader);result = new LowerCaseFilter(Version.LUCENE_36, result);ShingleFilter shingleFilter = new ShingleFilter(result, 2);shingleFilter.setOutputUnigrams(false);result = shingleFilter;return result;}}http://searchhub.org/2010/12/17/whats-a-shingle-in-lucene-parlance/
總結(jié)
以上是生活随笔為你收集整理的基于Lucene shingle英文单词NGram Analyzer的实现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于LM的双目图像校准算法源码第一部分
- 下一篇: IE提示当前安全设置不允许下载该文件怎么