2021年大数据ELK(四):Lucene的美文搜索案例
全網(wǎng)最詳細(xì)的大數(shù)據(jù)ELK文章系列,強(qiáng)烈建議收藏加關(guān)注!?
新文章都已經(jīng)列出歷史文章目錄,幫助大家回顧前面的知識(shí)重點(diǎn)。
目錄
系列歷史文章
美文搜索案例
一、需求
二、準(zhǔn)備工作
1、創(chuàng)建IDEA項(xiàng)目
2、創(chuàng)建父工程
3、添加lucene模塊
4、導(dǎo)入Maven依賴
5、創(chuàng)建包和類
6、導(dǎo)入文章數(shù)據(jù)
三、建立索引庫(kù)
1、實(shí)現(xiàn)步驟
2、參考代碼
3、執(zhí)行效果
四、關(guān)鍵字查詢
1、需求
2、準(zhǔn)備工作
3、開發(fā)步驟
4、參考代碼
5、執(zhí)行效果
五、搜索詞語(yǔ)問(wèn)題
六、分詞器與中文分詞器
七、使用IK分詞器重構(gòu)案例
1、準(zhǔn)備工作
2、實(shí)現(xiàn)步驟
3、參考代碼
4、執(zhí)行效果
5、問(wèn)題
八、句子搜索
1、實(shí)現(xiàn)步驟
2、參考代碼
3、執(zhí)行效果
??????????????
系列歷史文章
2021年大數(shù)據(jù)ELK(六):安裝Elasticsearch
2021年大數(shù)據(jù)ELK(五):Elasticsearch中的核心概念
2021年大數(shù)據(jù)ELK(四):Lucene的美文搜索案例
2021年大數(shù)據(jù)ELK(三):Lucene全文檢索庫(kù)介紹
2021年大數(shù)據(jù)ELK(二):?Elasticsearch簡(jiǎn)單介紹
2021年大數(shù)據(jù)ELK(一):集中式日志協(xié)議棧Elastic Stack簡(jiǎn)介
美文搜索案例
一、需求
在資料中的文章文件夾中,有很多的文本文件。這里面包含了一些非常有趣的軟文。而我們想要做的事情是,通過(guò)搜索一個(gè)關(guān)鍵字就能夠找到哪些文章包含了這些關(guān)鍵字。例如:搜索「hadoop」,就能找到hadoop相關(guān)的文章。
需求分析:
要實(shí)現(xiàn)以上需求,我們有以下兩種辦法:
- 用戶輸入搜索關(guān)鍵字,然后我們挨個(gè)讀取文件,并查找文件中是否包含關(guān)鍵字
- 我們先挨個(gè)讀取文件,對(duì)文件的文本進(jìn)行分詞(例如:按標(biāo)點(diǎn)符號(hào)),然后建立索引,用戶輸入關(guān)鍵字,根據(jù)之前建立的索引,搜索關(guān)鍵字。
很明顯,第二種方式要比第一種效果好得多,性能也好得多。所以,我們下面就使用Lucene來(lái)建立索引,然后根據(jù)索引來(lái)進(jìn)行檢索。
二、準(zhǔn)備工作
1、創(chuàng)建IDEA項(xiàng)目
此處在IDEA中的工程模型如下:
2、創(chuàng)建父工程
| groupId | cn.it |
| artifactId | es_parent |
3、添加lucene模塊
??????????????
| groupId | cn.it |
| artifactId | lucene_op |
4、導(dǎo)入Maven依賴
導(dǎo)入依賴到lucene_op的pom.xml
<dependencies><!-- lucene核心類庫(kù) --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-core</artifactId><version>8.4.0</version></dependency><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers-common</artifactId><version>8.4.0</version></dependency><dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.6</version></dependency><dependency><groupId>com.jianggujin</groupId><artifactId>IKAnalyzer-lucene</artifactId><version>8.0.0</version></dependency></dependencies><build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.1</version><configuration><source>1.8</source><target>1.8</target></configuration></plugin></plugins></build>
5、創(chuàng)建包和類
- 在java目錄創(chuàng)建?cn.it.lucene 包結(jié)構(gòu)
- 創(chuàng)建BuildArticleIndex類
6、導(dǎo)入文章數(shù)據(jù)
- 在?lucene_op 模塊下創(chuàng)建名為?data 的目錄,用來(lái)存放文章文件
- 在?lucene_op 模塊下創(chuàng)建名為?index 的目錄,用于存放最后生成的索引文件
- 將資料/文章目錄下的txt文件復(fù)制到 data 目錄中
三、???????建立索引庫(kù)
1、???????實(shí)現(xiàn)步驟
- 構(gòu)建分詞器(StandardAnalyzer)
- 構(gòu)建文檔寫入器配置(IndexWriterConfig)
- 構(gòu)建文檔寫入器(IndexWriter,注意:需要使用Paths來(lái))
- 讀取所有文件構(gòu)建文檔
- 文檔中添加字段
| 字段名 | 類型 | 說(shuō)明 |
| file_name | TextFiled | 文件名字段,需要在索引文檔中保存文件名內(nèi)容 |
| content | TextFiled | 內(nèi)容字段,只需要能被檢索,但無(wú)需在文檔中保存 |
| path | StoredFiled | 路徑字段,無(wú)需被檢索,只需要在文檔中保存即可 |
- 寫入文檔
- 關(guān)閉寫入器
2、???????參考代碼
package cn.it.lucene;import java.io.File;
import java.io.IOException;
import java.nio.file.Paths;
import org.apache.commons.io.FileUtils;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StoredField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.FSDirectory;public class BuildArticleIndex {public static void main(String[] args) throws IOException {// 1. 構(gòu)建分詞器(StandardAnalyzer)StandardAnalyzer standardAnalyzer = new StandardAnalyzer();// 2. 構(gòu)建文檔寫入器配置(IndexWriterConfig)IndexWriterConfig indexWriterConfig = new IndexWriterConfig(standardAnalyzer);// 3. 構(gòu)建文檔寫入器(IndexWriter)IndexWriter indexWriter = new IndexWriter(FSDirectory.open(Paths.get("E:\\project\\java\\elk\\es_parent\\lucene_op\\index")), indexWriterConfig);// 4. 讀取所有文件構(gòu)建文檔File articleDir = new File("E:\\project\\java\\elk\\es_parent\\lucene_op\\data");File[] fileList = articleDir.listFiles();for (File file : fileList) {// 5. 文檔中添加字段Document docuemnt = new Document();docuemnt.add(new TextField("file_name", file.getName(), Field.Store.YES));docuemnt.add(new TextField("content", FileUtils.readFileToString(file, "UTF-8"), Field.Store.NO));docuemnt.add(new StoredField("path", file.getAbsolutePath() + "/" + file.getName()));// 6. 寫入文檔indexWriter.addDocument(docuemnt);}// 7. 關(guān)閉寫入器indexWriter.close();}
}
3、執(zhí)行效果
四、???????關(guān)鍵字查詢
???????1、需求
輸入一個(gè)關(guān)鍵字“心”,根據(jù)關(guān)鍵字查詢索引庫(kù)中是否有匹配的文檔
2、???????準(zhǔn)備工作
- 前提:基于文章文本文件,已經(jīng)生成好了索引
- 在cn.it.lucene包下創(chuàng)建一個(gè)類KeywordSearch
3、開發(fā)步驟
- 使用DirectoryReader.open構(gòu)建索引讀取器
- 構(gòu)建索引查詢器(IndexSearcher)
- 構(gòu)建詞條(Term)和詞條查詢(TermQuery)
- 執(zhí)行查詢,獲取文檔
- 遍歷打印文檔(可以使用IndexSearch.doc根據(jù)文檔ID獲取到文檔)
- 關(guān)鍵索引讀取器
4、???????參考代碼
package cn.it.lucene;import java.io.IOException;
import java.nio.file.Paths;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.FSDirectory;public class KeywordSearch {public static void main(String[] args) throws IOException {// 1. 構(gòu)建索引讀取器IndexReader indexReader = DirectoryReader.open(FSDirectory.open(Paths.get("E:\\project\\java\\elk\\es_parent\\lucene_op\\index")));// 2. 構(gòu)建索引查詢器IndexSearcher indexSearcher = new IndexSearcher(indexReader);// 3. 執(zhí)行查詢,獲取文檔TermQuery termQuery = new TermQuery(new Term("content", "心"));TopDocs topDocs = indexSearcher.search(termQuery, 50);ScoreDoc[] scoreDocArrary = topDocs.scoreDocs;// 4. 遍歷打印文檔for (ScoreDoc scoreDoc : scoreDocArrary) {int docId = scoreDoc.doc;Document document = indexSearcher.doc(docId);System.out.println("文件名:" + document.get("file_name") + " 路徑:" + document.get("path"));}indexReader.close();}
}
5、執(zhí)行效果
五、搜索詞語(yǔ)問(wèn)題
上述代碼,都是一個(gè)字一個(gè)字的搜索,但如果搜索一個(gè)詞,例如:“情愿”,我們會(huì)發(fā)現(xiàn),我們什么都搜索不出來(lái)。所以,接下來(lái),我們還需要來(lái)解決搜索一個(gè)詞的問(wèn)題。
六、???????分詞器與中文分詞器
分詞器是指將一段文本,分割成為一個(gè)個(gè)的詞語(yǔ)的動(dòng)作。例如:按照停用詞進(jìn)行分隔(的、地、啊、吧、標(biāo)點(diǎn)符號(hào)等)。我們之前在代碼中使用的分詞器是Lucene中自帶的分詞器。這個(gè)分詞器對(duì)中文很不友好,只是將一個(gè)一個(gè)字分出來(lái),所以,就會(huì)從后出現(xiàn)上面的問(wèn)題——無(wú)法搜索詞語(yǔ)。
所以,基于該背景,我們需要使用跟適合中文的分詞器。中文分詞器也有不少,例如:
- Jieba分詞器
- IK分詞器
- 庖丁分詞器
- Smarkcn分詞器
等等。此處,我們使用比較好用的IK分詞器來(lái)進(jìn)行分詞。
IK已經(jīng)實(shí)現(xiàn)好了Lucene的分詞器:https://github.com/wks/ik-analyzer
| IKAnalyzer是一個(gè)開源的,基于java語(yǔ)言開發(fā)的輕量級(jí)的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個(gè)大版本。最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的 IKAnalyzer3.0則發(fā)展為面向Java的公用分詞組件,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對(duì)Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn)。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最細(xì)粒度切分算法“,支持細(xì)粒度和最大詞長(zhǎng)兩種切分模式;具有83萬(wàn)字/秒(1600KB/S)的高速處理能力。 采用了多子處理器分析模式,支持:英文字母、數(shù)字、中文詞匯等分詞處理,兼容韓文、日文字符 優(yōu)化的詞典存儲(chǔ),更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義 針對(duì)Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser(作者吐血推薦);引入簡(jiǎn)單搜索表達(dá)式,采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合,能極大的提高Lucene檢索的命中率。 |
七、使用IK分詞器重構(gòu)案例
1、???????準(zhǔn)備工作
添加Maven依賴
<dependency><groupId>com.jianggujin</groupId><artifactId>IKAnalyzer-lucene</artifactId><version>8.0.0</version>
</dependency>
?創(chuàng)建BuildArticleIndexByIkAnalyzer類
2、實(shí)現(xiàn)步驟
把之前生成的索引文件刪除,然后將之前使用的StandardAnalyzer修改為IKAnalyzer。然后重新生成索引。
3、參考代碼
package cn.it.lucene;import java.io.File;
import java.io.IOException;
import java.nio.file.Paths;
import org.apache.commons.io.FileUtils;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StoredField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.FSDirectory;
import org.wltea.analyzer.lucene.IKAnalyzer;public class BuildArticleIndexByIkAnalyzer {public static void main(String[] args) throws IOException {// 1. 構(gòu)建分詞器(StandardAnalyzer)IKAnalyzer ikAnalyzer = new IKAnalyzer();// 2. 構(gòu)建文檔寫入器配置(IndexWriterConfig)IndexWriterConfig indexWriterConfig = new IndexWriterConfig(ikAnalyzer);// 3. 構(gòu)建文檔寫入器(IndexWriter)IndexWriter indexWriter = new IndexWriter(FSDirectory.open(Paths.get("E:\\project\\java\\elk\\es_parent\\lucene_op\\index")), indexWriterConfig);// 4. 讀取所有文件構(gòu)建文檔File articleDir = new File("E:\\project\\java\\elk\\es_parent\\lucene_op\\data");File[] fileList = articleDir.listFiles();for (File file : fileList) {// 5. 文檔中添加字段Document docuemnt = new Document();docuemnt.add(new TextField("file_name", file.getName(), Field.Store.YES));docuemnt.add(new TextField("content", FileUtils.readFileToString(file, "UTF-8"), Field.Store.NO));docuemnt.add(new StoredField("path", file.getAbsolutePath() + "/" + file.getName()));// 6. 寫入文檔indexWriter.addDocument(docuemnt);}// 7. 關(guān)閉寫入器indexWriter.close();}
}
4、執(zhí)行效果
5、問(wèn)題
通過(guò)使用IK分詞器進(jìn)行分詞,我們發(fā)現(xiàn),現(xiàn)在我們的程序可以搜索詞語(yǔ)了。但如果我們輸入一句話:人生是一條河,我們想要搜索出來(lái)與其相關(guān)的文章。應(yīng)該如何實(shí)現(xiàn)呢?
八、???????句子搜索
在cn.it.lucene 包下創(chuàng)建一個(gè)SentenceSearch類
1、???????實(shí)現(xiàn)步驟
要實(shí)現(xiàn)搜索句子,其實(shí)是將句子進(jìn)行分詞后,再進(jìn)行搜索。我們需要使用QueryParser類來(lái)實(shí)現(xiàn)。通過(guò)QueryParser可以指定分詞器對(duì)要搜索的句子進(jìn)行分詞。
2、???????參考代碼
package cn.it.lucene;import java.io.IOException;
import java.nio.file.Paths;
import java.text.ParseException;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.FSDirectory;
import org.wltea.analyzer.lucene.IKAnalyzer;public class SentenceSearch {public static void main(String[] args) throws IOException {// 1. 構(gòu)建索引讀取器IndexReader indexReader = DirectoryReader.open(FSDirectory.open(Paths.get("D:\\project\\51.V8.0_NoSQL_MQ\\ElasticStack\\code\\es_parent\\lucene_op\\index")));// 2. 構(gòu)建索引查詢器IndexSearcher indexSearcher = new IndexSearcher(indexReader);// 3. 執(zhí)行查詢,獲取文檔QueryParser queryParser = new QueryParser("content", new IKAnalyzer());TopDocs topDocs = null;try {topDocs = indexSearcher.search(queryParser.parse("人生是一條河"), 50);} catch (org.apache.lucene.queryparser.classic.ParseException e) {e.printStackTrace();}ScoreDoc[] scoreDocArrary = topDocs.scoreDocs;// 4. 遍歷打印文檔for (ScoreDoc scoreDoc : scoreDocArrary) {int docId = scoreDoc.doc;Document document = indexSearcher.doc(docId);System.out.println("文件名:" + document.get("file_name") + " 路徑:" + document.get("path"));}indexReader.close();}
}
3、執(zhí)行效果
- 📢博客主頁(yè):https://lansonli.blog.csdn.net
- 📢歡迎點(diǎn)贊 👍 收藏 ?留言 📝 如有錯(cuò)誤敬請(qǐng)指正!
- 📢本文由 Lansonli 原創(chuàng),首發(fā)于 CSDN博客🙉
- 📢大數(shù)據(jù)系列文章會(huì)每天更新,停下休息的時(shí)候不要忘了別人還在奔跑,希望大家抓緊時(shí)間學(xué)習(xí),全力奔赴更美好的生活?
總結(jié)
以上是生活随笔為你收集整理的2021年大数据ELK(四):Lucene的美文搜索案例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2021年大数据ELK(三):Lucen
- 下一篇: 2021年大数据ELK(五):Elast