lucene 入门整理
2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
1.??? 概述
Lucene是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎。Lucene以其方便使用、快速實(shí)施以及靈活性受到廣泛的關(guān)注。它可以方便地嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引、檢索功能,本總結(jié)使用lucene--2.3.2。
2.??? lucene?的包結(jié)構(gòu)
1、org.apache.lucene.analysis對(duì)需要建立索引的文本進(jìn)行分詞、過(guò)濾等操作, 語(yǔ)言分析器,主要用于的切詞Analyzer是一個(gè)抽象類,管理對(duì)文本內(nèi)容的切分詞規(guī)則。
2、org.apache.lucene.analysis.standard是標(biāo)準(zhǔn)分析器
3、org.apache.lucene.document提供對(duì)Document和Field的各種操作的支持。索引存儲(chǔ)時(shí)的文檔結(jié)構(gòu)管理,類似于關(guān)系型數(shù)據(jù)庫(kù)的表結(jié)構(gòu)。Document相對(duì)于關(guān)系型數(shù)據(jù)庫(kù)的記錄對(duì)象,Field主要負(fù)責(zé)字段的管理。
4、org.apache.lucene.index是最重要的包,用于向Lucene提供建立索引時(shí)各種操作的支持。索引管理,包括索引建立、刪除等。索引包是整個(gè)系統(tǒng)核心,全文檢索的根本就是為每個(gè)切出來(lái)的詞建索引,查詢時(shí)就只需要遍歷索引,而不需要去正文中遍歷,從而極大的提高檢索效率。
5、org.apache.lucene.queryParser提供檢索時(shí)的分析支持。查詢分析器,實(shí)現(xiàn)查詢關(guān)鍵詞間的運(yùn)算,如與、或、非等。
6、org.apache.lucene.search 負(fù)責(zé)檢索。檢索管理,根據(jù)查詢條件,檢索得到結(jié)果。
7、org.apache.lucene.store提供對(duì)索引存儲(chǔ)的支持。數(shù)據(jù)存儲(chǔ)管理,主要包括一些底層的I/0操作。
8、org.apache.lucene.util提供一些常用工具類和常量類的支持
3.??? 索引文件格式
a)???????? .fnm格式? 包含了Document中所有field名稱
b)??????? .fdt與.fdx格式? .fdt文件用于存儲(chǔ)具有Store.YES屬性的Field的數(shù)據(jù);.fdx是一個(gè)索引,用于存儲(chǔ)Document在.fdt中的位置。
c)???????? .tis 與.tii格式? .tis文件用于存儲(chǔ)分詞后的詞條(Term),而.tii就是它的索引文件,它表明了每個(gè).tis文件中的詞條的位置。
d)??????? deletable格式 文檔被刪除后,會(huì)首先在deletable文件中留下一個(gè)記錄,要真正刪除時(shí),才將索引除去。
e)???????? 復(fù)合索引格式 .cfs
使用IndexWriter的useCompoundFile()? 默認(rèn)為True
4.??? lucene中主要的類
4.1. Document文檔類
4.1.1.常用方法
| 方法 | 描述 |
| void add(Field field) | 往Document對(duì)象中添加字段 |
| void removeField(String name) | 刪除字段。若多個(gè)字段以同一個(gè)字段名存在,則刪除首先添加的字段;若不存在,則Document保持不變 |
| void removeFields(String name) | 刪除所有字段。若字段不存在,則Document保持不變 |
| Field getField(String name) | 若多個(gè)字段以同一個(gè)字段名存在,則返回首先添加的字段;若字段不存在,則Document保持不變 |
| Enumeration fields() | 返回Document對(duì)象的所有字段,以枚舉類型返回 |
| Field [] getFields(String name) | 根據(jù)名稱得到一個(gè)Field的數(shù)組 |
| String [] getValues(String name) | 根據(jù)名稱得到一個(gè)Field的值的數(shù)組 |
?
4.1.2.示例
Document doc1 = new Document();
doc1.add(new Field("name", "word1 word2 word3",
Field.Store.NO,Field.Index.TOKENIZED));
Document doc2 = new Document();
doc2.add(new Field("name", "word1 word2 word3",
Field.Store.NO,Field.Index.TOKENIZED));
4.2. Field字段類
4.2.1.構(gòu)造方法
1)??????? public Field(String name,String value,Store store,Index index);//直接的字符串方式
2)??????? public Field(String name,String value,Store store,Index index,TermVector termVector);
3)??????? public Field(String name,String value,Reader reader);//使用Reader從外部傳入
4)??????? public Field(String name,String value,Reader reader,TermVector termVector);
5)??????? public Field(String name,byte[] value,Store store)//使用直接的二進(jìn)制byte傳入
當(dāng)Field值為二進(jìn)制時(shí),可以使用Lucene的壓縮功能將其值進(jìn)行壓縮。
4.2.2.Store類
| 靜態(tài)屬性 | 描述 |
| Store.NO | 表示該Field不需要存儲(chǔ) |
| Store.YES | 表示該Field需要存儲(chǔ) |
| Store.COMPRESS | 表示用壓縮方式來(lái)保存這個(gè)Field的值 |
4.2.3.Index類
| 靜態(tài)屬性 | 描述 |
| Index.NO | 不需要索引 |
| Index.TOKENIZED | 先被分詞再被索引 |
| Index.UN_TOKENIZED | 不對(duì)該Field進(jìn)行分詞,但會(huì)對(duì)它進(jìn)行索引 |
| Index.NO_NORMS | 對(duì)該Field進(jìn)行索引,但是不使用Analyzer,同時(shí)禁止它參加評(píng)分,主要是為了減少內(nèi)存的消耗。 |
?
4.2.4.示例
new Field("name", "word1 word2 word3",Field.Store.YES,Field.Index.TOKENIZED)
?
4.3. IndexWriter類
4.3.1.構(gòu)造方法
1)??????? public IndexWriter(String path,Analyzer a,Boolean create)
2)??????? public IndexWriter(File path,Analyzer a,Boolean create)
3)??????? public IndexWriter(Directory d,Analyzer a,Boolean create)
第一個(gè)參數(shù):索引存放在什么地方
第二個(gè)參數(shù):分析器,繼承自org.apache.lucene.analysis.Analyzer類
第三個(gè)參數(shù):為true時(shí),IndexWriter不管目錄內(nèi)是否已經(jīng)有索引了,一律清空,重新建立;當(dāng)為false時(shí),則IndexWriter會(huì)在原有基礎(chǔ)上增量添加索引。所以在更新的過(guò)程中,需要設(shè)置該值為false。
4.3.2.添加文檔
public void addDocument(Document doc)
public void addDocument(Document doc,Analyzer analyzer)//使用一個(gè)開(kāi)發(fā)者自定義的,而非事先在構(gòu)建IndexWriter時(shí)聲明的Analyzer來(lái)進(jìn)行分析
writer.addDocument(doc1);
4.3.3.性能參數(shù)
1)??????? mergeFactor控制Lucene在把索引從內(nèi)存寫入磁盤上的文件系統(tǒng)時(shí)內(nèi)存中最大的Document數(shù)量,同時(shí)它還控制內(nèi)存中最大的Segment數(shù)量。默認(rèn)為10.
writer.setMergeFactor(10);
2)??????? maxMergeDocs限制一個(gè)Segment中最大的文檔數(shù)量。一個(gè)較大的maxMergeDocs適用于對(duì)大批量的文檔建立索引,增量式的索引則應(yīng)使用較小的maxMergeDocs。
writer.setMaxMergeDocs(1000);
3)??????? minMergeDocs用于控制內(nèi)存中持有的文檔數(shù)量的,它對(duì)磁盤上的Segment大小沒(méi)有任何影響。
4.3.4.限制Field的長(zhǎng)度
maxFieldLength限制Field的長(zhǎng)度,默認(rèn)值為10000.最大值100000個(gè)。
public void setMaxFieldLength(int maxFieldLength)
writer.addDocument(doc1);
writer.setMaxFieldLength(100000);
writer.addDocument(doc2);
4.3.5.復(fù)合索引格式
setUseCompoundFile(Boolean) 默認(rèn)true
writer.setUseCompoundFile(true);//復(fù)合索引
writer.setUseCompoundFile(false);
4.3.6.優(yōu)化索引
writer.optimize();
將磁盤上的多個(gè)segment進(jìn)行合并,組成一個(gè)全新的segment。這種方法并不會(huì)增加建索時(shí)的速度,反而會(huì)降低建索的速度。所以應(yīng)該在建完索引后在調(diào)用這個(gè)函數(shù)
4.3.7.示例
IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(), true);
writer.addDocument(doc1);
writer.addDocument(doc2);
Sytem.out.println(writer.docCount());
writer.close();
IndexSearcher searcher = new IndexSearcher(path);
Hits hits = null;
Query query = null;
QueryParser parser =new QueryParser("name", new StandardAnalyzer());
query =parser.parse("word1");
hits = searcher.search(query);
System.out.println("查找 word1 共" + hits.length() + "個(gè)結(jié)果");
?
4.4. Directory類
Directory:用于索引的存放位置
a)???????? FSDirectory.getDirectory(path, true)第二個(gè)參數(shù)表示刪除掉目錄內(nèi)原有內(nèi)容
IndexWriter writer = new IndexWriter(FSDirectory.getDirectory(path, true), new StandardAnalyzer(), true);//刪除原有索引
或
FSDirectory fsDir=FSDirectory.getDirectory(path,true);
IndexWriter writer = new IndexWriter(fsDir, new StandardAnalyzer(), true);
b)??????? RAMDirectory在內(nèi)存中存放,讀取速度快,但程序一運(yùn)行結(jié)束,它的內(nèi)容就不存在了
RAMDirectory ramDir=new RAMDirectory();
IndexWriter writer = new IndexWriter(ramDir, new StandardAnalyzer(), true);
?
或
IndexWriter writer = new IndexWriter(new RAMDirectory(), new StandardAnalyzer(), true);
4.5. IndexReader類
IndexReader類――索引的讀取工具
4.5.1.刪除文檔
IndexReader reader=IndexReader.open(path);
reader.deleteDocument(0);//刪除第一個(gè)
reader.close();
4.5.2.反刪除
reader.undeleteAll();
4.5.3.按字段刪除
reader.deleteDocuments(new Term("name","word1"));
若要真正物理刪除,則只需使用IndexWriter對(duì)索引optimize一次即可!
4.5.4.示例
IndexReader reader=IndexReader.open(path);
?????????? for(int i=0;i<reader.numDocs();i++){
????????????? System.out.println(reader.document(i));
?????????? }
?????????? System.out.println("版本:"+reader.getVersion());
?????????? System.out.println("索引內(nèi)的文檔數(shù)量:"+reader.numDocs());
?????????? //reader.deleteDocuments(new Term("name","word1"));
?????????? Term term1=new Term("name","word1");
?????????? TermDocs docs=reader.termDocs(term1);
?????????? while(docs.next())
?????????? {
????????????? System.out.println("含有所查找的"+term1+"的Document的編號(hào)為"+docs.doc());
????????????? System.out.println("Term在文檔中的出現(xiàn)次數(shù)"+docs.freq());
?????????? }
?????????? reader.close();
?
4.6. IndexModifier類
集成了IndexWriter的大部分功能和IndexReader中對(duì)索引刪除的功能 ------ Lucene2.0的新類
?
4.6.1.示例
public static void main(String[] args) throws Exception {
?????? IndexModifier modifier=new IndexModifier("C:\\Q1",new StandardAnalyzer(),true);
?????? Document doc1=new Document();
?????? doc1.add(new Field("bookname","鋼鐵是怎樣煉成的",Field.Store.YES,Field.Index.TOKENIZED));
?????? Document doc2=new Document();
?????? doc2.add(new Field("bookname","山山水水",Field.Store.YES,Field.Index.TOKENIZED));
?????? modifier.addDocument(doc1);
?????? modifier.addDocument(doc2);
??????
?????? System.out.println(modifier.docCount());
?????? modifier.setUseCompoundFile(false);
?????? modifier.close();
??????
?????? IndexModifier mo=new IndexModifier("C:\\Q1",new StandardAnalyzer(),false);
?????? mo.deleteDocument(0);
?????? System.out.println(mo.docCount());
?????? mo.close();
??? }
?
4.7. IndexSearcher類
4.7.1.構(gòu)造方法
IndexSearcher searcher = new IndexSearcher(String path);
IndexSearcher searcher = new IndexSearcher(Directory directory);
IndexSearcher searcher = new IndexSearcher(IndexReader r);
IndexSearcher searcher = new IndexSearcher(IndexReader r,Boolean closeReader);
IndexSearcher searcher = new IndexSearcher(path);
IndexSearcher searcher = new IndexSearcher(FSDirectory.getDirectory(path,false) );
4.7.2.search方法
//返回Hits對(duì)象
public Hits search(Query query)
public Hits search(Query query,Filter filter)
public Hits search(Query query,Sort sort)
public Hits search(Query query,Filter filter,Sort sort)
?
//檢索只返回得分最高的Document
public TopDocs search(Query query,Filter filter,int n)
public TopDocs search(Weight weight,Filter filter,int n)
public TopFieldDocs search(Weight weight,Filter filter,int n,Sort sort)
public TopFieldDocs search(Query query,Filter filter,int n,Sort sort)
?
//傳入HitCollector,將結(jié)果保存在HitCollector中
public void search(Query query,HitCollector results)
public void search(Query query,Filter filter,HitCollector results)
public void search(Weight weight,Filter filter,HitCollector results)
4.7.3.Searcher的explain方法
public Explaination explain(Query query,int doc)throws IOException
for(int i=0;i<hits.length()&&i<10;i++)
{
??? Document d=hits.doc(i);
??? System.out.println(i+" "+hits.score(i)+" "+d.get("contents"));
System.out.println(searcher.explain(query,hits.id(i)).toString());
}
4.7.4.示例
IndexSearcher searcher = new IndexSearcher(path);
Hits hits = null;
Query query = null;
?
QueryParser parser =new QueryParser("contents", new StandardAnalyzer());
?
query =parser.parse("11");
hits = searcher.search(query);
System.out.println("查找 word1 共" + hits.length() + "個(gè)結(jié)果");
?
for(int i=0;i<hits.length()&&i<10;i++)
{
??? Document d=hits.doc(i);
??? System.out.println(d+" "+i+" "+hits.score(i)+" "+d.get("contents"));
}
searcher.close();
4.8. Hits類
4.8.1.概述
Hits類――檢索結(jié)果
4.8.2.常用方法
?
?
| 方法名 | 描述 |
| int length() | 返回搜索到結(jié)果的總數(shù)量 |
| Document doc(int i) | 返回第i個(gè)文檔 |
| int id(int i) | 返回第i個(gè)文檔的內(nèi)部ID號(hào) |
| float score(int i) | 返回第i個(gè)文檔的得分 |
| Iterator iterator() | 取得Hits集合的遍歷對(duì)象 |
4.8.3.示例
for(int i=0;i<hits.length()&&i<10;i++)
{
??? Document d=hits.doc(i);
??? System.out.println(d+" "+" "+hits.score(i)+" "+d.get("contents"));
System.out.println("文檔的內(nèi)部ID號(hào):" + hits.id(i));
}
4.9. QueryParser類
4.9.1.改變默認(rèn)的布爾邏輯
?? 默認(rèn)為“或”關(guān)系
Query query = null;
QueryParser parser =new QueryParser("contents", new StandardAnalyzer());
query =parser.parse("hello world!");
System.out.println(query.toString());
?? 改變默認(rèn)布爾邏輯
Query query = null;
QueryParser parser =new QueryParser("contents", new StandardAnalyzer());
parser.setDefaultOperator(QueryParser.AND_OPERATOR);
query =parser.parse("hello world");//若world后加!會(huì)出錯(cuò)
System.out.println(query.toString());
?? AND OR NOT – 關(guān)鍵字
也可以不用改變默認(rèn)布爾邏輯,而直接讓用戶在輸入關(guān)鍵字時(shí)指定不同詞條間的布爾聯(lián)系。例如,用戶輸入 hello AND world? 必須為大寫
邏輯與:AND (大寫)
邏輯或:OR? (大寫)
邏輯非:-?? 例如: hello - world
也可以是NOT? 例如: hello NOT world
4.9.2.不需要分詞
不進(jìn)行分詞,將其完整的作為一個(gè)詞條進(jìn)行處理,則需要在詞組的外面加上引號(hào)
String queryStr="\"God helps those who help themselves\"";
QueryParser parser = new QueryParser("bookname",new StandardAnalyzer());
parser.setDefaultOperator(QueryParser.AND_OPERATOR);
Query query=parser.parse(queryStr);
System.out.println(query.toString());
4.9.3.設(shè)置坡度值,支持FuzzyQuery
String queryStr="\"God helps those who help themselves\"~1";//設(shè)置坡度為1
QueryParser parser = new QueryParser("bookname",new StandardAnalyzer());
Query query=parser.parse(queryStr);
System.out.println(query.toString());
4.9.4.設(shè)置通配符,支持WildcardQuery
String queryStr="wor?"
QueryParser parser = new QueryParser("bookname",new StandardAnalyzer());
parser.setDefaultOperator(QueryParser.AND_OPERATOR);
Query query=parser.parse(queryStr);
System.out.println(query.toString());
4.9.5.查找指定的Field
String queryStr="linux publishdate:2006-09-01";
QueryParser parser = new QueryParser("bookname",new StandardAnalyzer());
parser.setDefaultOperator(QueryParser.AND_OPERATOR);
Query query=parser.parse(queryStr);
System.out.println(query.toString());
例如:要求用戶選擇某一方面的
QueryParser parser=new QueryParser("publishdate",
new StandardAnalyzer());
Query query=parser.parse(queryStr);
System.out.println(query.toString());
?
輸出結(jié)果為publishdate:[081xmghs0 TO 0boeetj3z]
因?yàn)榻⑺饕龝r(shí),如果按照日期表示的字符串來(lái)進(jìn)行索引,實(shí)際上比較的是字符串的字典順序。而首先將日期轉(zhuǎn)為以毫秒計(jì)算的時(shí)間后,則可以精確地比較兩個(gè)日期的大小了。于是,lucene提供DateTools工具,用來(lái)完成其內(nèi)部對(duì)時(shí)間的轉(zhuǎn)化和處理,將毫秒級(jí)的時(shí)間轉(zhuǎn)化為一個(gè)長(zhǎng)字符串來(lái)進(jìn)行表示,并進(jìn)行索引。所以,遇到日期型數(shù)據(jù)時(shí),最好用DateTools進(jìn)行轉(zhuǎn)換,再進(jìn)行索引!
4.9.7.現(xiàn)在還不支持SpanQuery
4.10.??????? MultiFieldQueryParser類--多域搜索
//在不同的Field上進(jìn)行不同的查找
public static Query parse(String []queries,String[] fields,Analyzer analyzer)throws ParseException
?
//在不同的Field上進(jìn)行同一個(gè)查找,指定它們之間的布爾關(guān)系
public static Query parse(String query,String[] fields,BooleanClause.Occur[] flags,Analyzer analyzer) throws ParseException
?
//在不同的Field上進(jìn)行不同的查找,指定它們之間的布爾關(guān)系
public static Query parse(String []queries,String [] fields,BooleanClause.Occur[] flags,Analyzer analyzer)throws ParseException
String [] queries={"鋼", "[10 TO 20]"};
String[] fields={“bookname”,”price”};
BooleanClause.Occur[] clauses={BooleanClause.Occur.MUST,BooleanClause.Occur.MUST};
Query query=MultiFieldQueryParser.parse(queries,fields,clauses,new StandardAnalyzer());
System.out.println(query.toString());
?
4.11.??????? MultiSearcher類--多個(gè)索引搜索
IndexSearcher searcher1=new IndexSearcher(path1);
IndexSearcher searcher2=new IndexSearcher(path2);
IndexSeacher [] searchers={searcher1,seacher2};
MultiSearcher searcher=new MultiSearcher(searchers);
Hits hits=searcher.search(query);
for(int i=0;i<hits.length();i++){
??? System.out.println(hits.doc(i));
}
4.12.??????? ParalellMultiSearcher類---多線程搜索
IndexSearcher searcher1=new IndexSearcher(path1);
IndexSearcher searcher2=new IndexSearcher(path2);
IndexSearcher [] searchers={searcher1,searcher2};
ParallelMultiSearcher searcher=new ParallelMultiSearcher(searchers);
long start=System.currentTimeMillis();
Hits hits=searcher.search(query);
long end=System.currentTimeMillis();
System.out.println((end-start)+"ms");
5.??? 排序
5.1. Sort類
public Sort()
public Sort(String field)
public Sort(String field,Boolean reverse)? //默認(rèn)為false,降序排序
public Sort(String[] fields)
public Sort(SortField field)
public Sort(SortField[] fields)
Sort sort=new Sort(“bookname”);按照“bookname“這個(gè)Field值進(jìn)行降序排序
Sort sort=new Sort(“bookname”,true) //升序排序
Sort sort=new Sort(new String[]{“bookNumber”,”bookname”,”publishdate”});按照三個(gè)Field進(jìn)行排序,但無(wú)法指定升序排序,所以用SortField
5.2. SortField類
public SortField(String field)
public SortField(String field,Boolean reverse)
public SortField(String field,int type) //type表示當(dāng)前Field值的類型
public SortField(String field,int type,boolean reverse)? //默認(rèn)為false,升序
Field值的類型:SortField.STRING、SortField.INT、SortField.FLOAT
SortField sf1=new SortField(“bookNumber”,SortField.INT,false);
SortField sf2=new SortField(“bookname”,SortField.STRING,false);
5.3. 指定排序的法則
5.3.1.按照文檔的得分降序排序
Hits hits=searcher.search(query,Sort.RELEVANCE);
5.3.2.按文檔的內(nèi)部ID升序排序
Hits hits=searcher.search(query, Sort.INDEXORDER);
5.3.3.按照一個(gè)Field來(lái)排序
Sort sort=new Sort();
SortField sf=new SortField(“bookNumber”,SortField.INT,false);
sort.setSort(sf);
Hits hits=searcher.search(query,sort);
5.3.4.按照多個(gè)Field來(lái)排序
Sort sort=new Sort();
SortField sf1=new SortField(“bookNumber”,SortField.INT,false);//升序
SortField sf2=new SortField(“publishdate”,SortField.STRING,true);//降序
sort.setSort(new SortField[]{sf1,sf2});
Hits hits=searcher.search(query,sort);
5.3.5.改變SortField中的Locale信息
String str1=”我”; String str2=”你”;
Collator co1=Collator.getInstance(Locale.CHINA);
Collator co2=Collator.getInstance(Locale.JAPAN);
System.out.println(Locale.CHINA+”:”+co1.compare(str1,str2));
System.out.println(Locale.JAPAN+”:”+co2.compare(str1,str2));
輸出結(jié)果為:
zh_CN:1
ja_JP:-1
所以
public SortField(String field,Locale locale)
public SortField(String field,Locale locale,boolean reverse)
6.??? 過(guò)濾器
使用public Hits search(Query query,Filter filter)
(1)簡(jiǎn)單過(guò)濾
Hits hits=searcher.search(query,new AdvancedSecurityFilter());//過(guò)濾掉securitylevel為0的結(jié)果
(2)范圍過(guò)濾—RangeFilter
只顯示中間的
RangeFilter filter=new RangeFilter(“publishdate”,”1970-01-01”,”1998-12-31”,true,true”);
Hits hits=searcher.search(query,filter);
?
無(wú)上邊界
public static RangeFilter More(String fieldname,String lowerTerm)
?
無(wú)下邊界
public static RangeFilter Less(String fieldname,String upperTerm)
(3)在結(jié)果中查詢QueryFilter
RangeQuery q=new RangeQuery(new Term(“publicshdate”,”1970-01-01”),
new Term(“publishdate”,”1999-01-01”),true);
QueryFilter filter=new QueryFilter(q);
Hits hits=searcher.search(query,filter);
7.??? 分析器Analysis
7.1. 自帶分析器和過(guò)濾器
?? 標(biāo)準(zhǔn)過(guò)濾器:StandardAnalyzer
?? 大小寫轉(zhuǎn)換器:LowerCaseFilter
?? 忽略詞過(guò)濾器:StopFilter
public StopFilter(TokenStream input,String [] stopWords)
public StopFilter(TokenStream in,String [] stopWords,boolean ignoreCase)
public StopFilter(TokenStream input,Set stopWords,boolean ignoreCase)
public StopFilter(TokenStream in, Set stopWords)
其中,參數(shù)TokenStream代表當(dāng)前正在進(jìn)行處理的流;String類型的數(shù)組代表一個(gè)用數(shù)組表示的忽略詞集合;Set類型的參數(shù)與String一樣,是用來(lái)表示忽略詞集合的;boolean表示當(dāng)與忽略詞集合中的詞進(jìn)行匹配時(shí),是否需要忽略大小寫。
?? 長(zhǎng)度過(guò)濾器:LengthFilter
?? PerFieldAnalyzerWrapper
?? WhitespaceAnalyzer
String str="str1 str2 str3";
?????? StringReader reader=new StringReader(str);
?????? Analyzer anlyzer=new WhitespaceAnalyzer();
??????
?????? TokenStream ts=anlyzer.tokenStream("", reader);
?????? Token t=null;
?????? while( (t=ts.next())!=null ){
?????????? System.out.println(t.termText());
?????? }
7.2. 第三方過(guò)分析器
?? 單字分詞
?? 二分法:CJKAnalyzer、中科院ICTCLAS分詞、JE分詞
?? 詞典分詞
7.2.1.JE分詞用法
7.2.1.1.?? 示例
import jeasy.analysis.MMAnalyzer;
IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer()
, true);
String str=" Lucene是一個(gè)全文檢索引擎的架構(gòu),"+
?????????? "提供了完整的查詢引擎和索引引擎。Lucene以其方便使用、快" +
?????????? "速實(shí)施以及靈活性受到廣泛的關(guān)注。它可以方便地嵌入到各種應(yīng)用" +
?????????? "中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引、檢索功能,本總結(jié)使用lucene--2.3.2。";
?????? MMAnalyzer analyzer=new MMAnalyzer();
?????? try{
?????????? System.out.println(analyzer.segment(str, "|"));
?????? }
?????? catch(Exception e)
?????? {
?????????? e.printStackTrace();
?????? }
輸出結(jié)果:lucene|一個(gè)|全文|檢索|引擎|架構(gòu)|提供|完整|查詢|。。。。
7.2.1.2.?? 設(shè)定正向最大匹配的字?jǐn)?shù)
MMAnalyzer analyzer=new MMAnalyzer(4);
7.2.1.3.?? 添加新詞
MMAnalyzer.addWord(String word);
MMAnalyzer.addDictionary(Reader reader);
?
MMAnalyzer analyzer=new MMAnalyzer();
MMAnalyzer.addWord("邁克爾雷第");
?
8.??? 索引的合并
RAMDirectory RAMDir=new RAMDirectory();
IndexWriter writer = new IndexWriter(RAMDir, new StandardAnalyzer(), true);//刪除原有索引
IndexWriter writer2=new IndexWriter(FSDirectory.getDirectory(path,true),
new StandardAnalyzer(), true);
writer.addDocument(doc1);
writer2.addDocument(doc2);
writer.close();
writer2.addIndexes(new Directory[]{RAMDir});
writer2.close();
注意:在合并前一定要先關(guān)閉要加的索引器。
9.??? 各種Query
9.1. 概述
query.toString()查看原子查詢
9.2. 使用特定的分析器搜索
IndexSearcher searcher = new IndexSearcher(path );
Hits hits = null;
Query query = null;
QueryParser parser =new QueryParser("contents", new StandardAnalyzer());
query =parser.parse("11 aand hello");
hits=searcher.search(query); //查找 name:11 name:hello 共1個(gè)結(jié)果
System.out.println("查找 "+query.toString()+" 共" + hits.length() + "個(gè)結(jié)果");
9.3. 按詞條搜索—TermQuery
Query query = null;
query=new TermQuery(new Term("name","word1 aand"));
hits=searcher.search(query);// 查找 name:word1 aand 共0個(gè)結(jié)果
System.out.println("查找 "+query.toString()+" 共" + hits.length() + "個(gè)結(jié)果");
9.4. 按“與或”搜索—BooleanQuery
1.和: MUST與MUST_NOT
2.或: SHOULD與SHOULD
3.A與B的并集-B? MUST與MUST_NOT
Query query1=null;
Query query2=null;
BooleanQuery query=null;
query1=new TermQuery(new Term("name","word1"));
query2=new TermQuery(new Term("name","word2"));
query=new BooleanQuery();
query.add(query1,BooleanClause.Occur.MUST);
query.add(query2,BooleanClause.Occur.MUST_NOT);
9.5. 在某一范圍內(nèi)搜索—RangeQuery
Term beginTime=new Term("time","200001");
Term endTime=new Term("time","200005");
RangeQuery query=null;
query=new RangeQuery(beginTime,endTime,false);//不包含邊界值
9.6. 使用前綴搜索—PrefixQuery
Term pre1=new Term("name","wor");
PrefixQuery query=null;
query = new PrefixQuery(pre1);
9.7. 短語(yǔ)搜索—PhraseQuery
a)默認(rèn)坡度為0
PhraseQuery query = new PhraseQuery();
query.add(new Term(“bookname”,”鋼”));
query.add(new Term(“bookname”,”鐵”));
Hits hits=searcher.search(query); //搜索“鋼鐵”短語(yǔ),而非“鋼”和“鐵”
b)設(shè)置坡度,默認(rèn)為0
PhraseQuery query = new PhraseQuery();
query.add(new Term(“bookname”,”鋼”));
query.add(new Term(“bookname”,”鐵”));
query.setSlop(1);
Hits hits=searcher.search(query);//搜索“鋼鐵”或“鋼*鐵”中含一字
9.8. 多短語(yǔ)搜索—MultiPhraseQuery
a)
MultiPhraseQuery query=new MultiPhraseQuery();
//首先向其中加入要查找的短語(yǔ)的前綴
query.add(new Term(“bookname”,”鋼”));
//構(gòu)建3個(gè)Term,作為短語(yǔ)的后綴
Term t1=new Term(“bookname”,”鐵”);
Term t2=new Term(“bookname”,”和”);
Term t3=new Term(“bookname”,”要”);
//再向query中加入所有的后綴,與前綴一起,它們將組成3個(gè)短語(yǔ)
query.add(new Term[]{t1,t2,t3});
Hits hits=searcher.search(query);
for(int i=0;i<hits.length();i++)
??? System.out.println(hits.doc(i));
b)
MultiPhraseQuery query=new MultiPhraseQuery();
Term t1=new Term(“bookname”,”鋼”);
Term t2 = new Term(“bookname”,”和”);
query.add(new Term[]{t1,t2});
query.add(new Term(“bookname”,”鐵”));
c)
MultiPhraseQuery query=new MultiPhraseQuery();
Term t1=new Term(“bookname”,”鋼”);
Term t2 = new Term(“bookname”,”和”);
query.add(new Term[]{t1,t2});
query.add(new Term(“bookname”,”鐵”));
Term t3=new Term(“bookname”,”是”);
Term t4=new Term(“bookname”,”戰(zhàn)”);
query.add(new Term[]{t3,t4});
9.9. 模糊搜索—FuzzyQuery
使用的算法為levenshtein算法,在比較兩個(gè)字符串時(shí),將動(dòng)作分為3種:
l? 加一個(gè)字母
l? 刪一個(gè)字母
l? 改變一個(gè)字母
FuzzyQuery query=new FuzzyQuery(new Term(“content”,”work”));
?
public FuzzyQuery(Term term)
public FuzzyQuery(Term term,float minimumSimilarity)throws IllegalArgumentException
public FuzzyQuery(Term term,float minimumSimilarity,int prefixLength)throws IllegalArgumentException
其中minimumSimilarity為最小相似度,越小則文檔的數(shù)量越多。默認(rèn)為0.5.其值必須<1.0
FuzzyQuery query=new FuzzyQuery(new Term(“content”,”work”),0.1f);
其中prefixLength表示要有多少個(gè)前綴字母必須完全匹配
FuzzyQuery query=new FuzzyQuery(new Term(“content”,”work”),0.1f,1);
9.10.??????? 通配符搜索—WildcardQuery
* 表示0到多個(gè)字符
? 表示一個(gè)單一的字符
WildcardQuery query=new WildcardQuery(new Term(“content”,”?qq*”));
9.11.??????? 跨度搜索
9.11.1.????? SpanTermQuery
效果和TermQuery相同
SpanTermQuery query=new SpanTermQuery(new Term(“content”,”abc”));
9.11.2.????? SpanFirstQuery
從Field內(nèi)容的起始位置開(kāi)始,在一個(gè)固定的寬度內(nèi)查找所指定的詞條
SpanFirstQuery query=new SpanFirstQuery(new Term(“content”,”abc”),3);//是第3個(gè)word,不是byte
9.11.3.????? SpanNearQuery
SpanNearQuery相當(dāng)與PhaseQuery
SpanTermQuery people=new SpanTermQuery(new Term(“content”,”mary”));
SpanTermQuery how=new SpanTermQuery(new Term(“content”,”poor”));
SpanNearQuery query=new SpanNearQuery(new SpanQuery[]{people,how},3,false);
9.11.4.????? SpanOrQuery
把所有SpanQuery的結(jié)果合起來(lái)
SpanTermQuery s1=new SpanTermQuery(new Term(“content”,”aa”);
SpanTermQuery s2=new SpanTermQuery(new Term(“content”,”cc”);
SpanTermQuery s3=new SpanTermQuery(new Term(“content”,”gg”);
SpanTermQuery s4=new SpanTermQuery(new Term(“content”,”kk”);
SpanNearQuery query1=new SpanNearQuery(new SpanQuery[]{s1,s2},1,false);
SpanNearQuery query2=new SpanNearQuery(new SpanQuery[]{s3,s4},3,false);
SpanOrQuery query=new SpanOrQuery(new SpanQuery[]{query1,query2});
9.11.5.????? SpanNotQuery
從第1個(gè)SpanQuery的查詢結(jié)果中,去掉第2個(gè)SpanQuery的查詢結(jié)果
SpanTermQuery s1=new SpanTermQuery(new Term(“content”,”aa”);
SpanFirstQuery query1=new SpanFirstQuery(s1,3);
?
SpanTermQuery s3=new SpanTermQuery(new Term(“content”,”gg”);
SpanTermQuery s4=new SpanTermQuery(new Term(“content”,”kk”);
SpanNearQuery query2=new SpanNearQuery(new SpanQuery[]{s3,s4},4,false);
?
SpanNotQuery query=new SpanNotQuery(query1,query2);
9.12.??????? RegexQuery—正則表達(dá)式的查詢
String regex="http://[a-z]{1,3}\\.abc\\.com/.*";
?????? RegexQuery query=new RegexQuery(new Term("url",regex));
?
10.?? 評(píng)分機(jī)制
10.1.??????? 概述
通過(guò)searcher.explain(Query query, int doc)方法可以查看某個(gè)文檔的得分的具體構(gòu)成。
在Lucene中score簡(jiǎn)單說(shuō)是由 tf * idf * boost * lengthNorm計(jì)算得出的。
1)??????? tf:Term Frequency.詞條頻率,是查詢的詞在文檔中出現(xiàn)的次數(shù)的平方根
2)??????? idf:表示反轉(zhuǎn)文檔頻率,Math.log(numDocs/(double)(docFreq+1))+1.0?? docDocs表示當(dāng)前檢索的詞條的文檔總數(shù), numDocs表示索引中總共的文檔數(shù)量
3)??????? boost:激勵(lì)因子,可以通過(guò)setBoost方法設(shè)置,需要說(shuō)明的通過(guò)field和doc都可以設(shè)置,所設(shè)置的值會(huì)同時(shí)起作用 。默認(rèn)為1.boost的值是在索引建立的時(shí)候已經(jīng)寫入了,而不像其他計(jì)算得分的因子是在查詢時(shí)實(shí)時(shí)得出的。因此,一旦boost值被寫入,就不能修改它,除非重新建立文檔索引。
4)??????? lengthNorm:是由搜索的field的長(zhǎng)度決定了,越長(zhǎng)文檔的分值越低。
11.?? Lucene的索引“鎖”
1.??? write.lock
2.??? commit.lock
?
轉(zhuǎn)載于:https://my.oschina.net/lujian863/blog/152018
總結(jié)
以上是生活随笔為你收集整理的lucene 入门整理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: OC中description、 SEL、
- 下一篇: 国家标准《软件工程 软件开发成本度量规范