如需转载,请根据 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 许可,附上本文作者及链接。
本文作者: 执笔成念
作者昵称: zbcn
本文链接: https://1363653611.github.io/zbcn.github.io/2019/12/20/Lucene01%20%E5%88%9D%E6%8E%A2_%E5%9F%BA%E4%BA%8E%20Lucene%206.6.2/
Lucene 初探——基于 Lucene 6.6.2
Lucene简介
Lucene是Apache Jakarta家族中的一个开源项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎、索引引擎和部分文本分析引擎。
Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具,是目前最为流行的基于 Java 开源全文检索工具包。
数据总体分为两种:
- 结构化数据:指具有固定格式或有限长度的数据,如数据库、元数据等。
- 非结构化数据:指不定长或无固定格式的数据,如邮件、word文档等磁盘上的文件。
对于结构化数据的全文搜索很简单,因为数据都是有固定格式的,例如搜索数据库中数据使用SQL语句即可。
对于非结构化数据,有以下两种方法:
- 顺序扫描法(Serial Scanning)
- 全文检索(Full-text Search)
顺序扫描法
如果要找包含某一特定内容的文件,对于每一个文档,从头到尾扫描内容,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件,因此速度很慢。
全文检索
将非结构化数据中的一部分信息提取出来,重新组织,使其变得具有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。
例如字典的拼音表和部首检字表就相当于字典的索引,通过查找拼音表或者部首检字表就可以快速的查找到我们要查的字。
这种先建立索引,再对索引进行搜索的过程 就叫全文检索(Full-text Search)。
全文检索流程
索引过程
绿色表示索引过程,对要搜索的原始内容进行索引构建一个索引库,索引过程包括:
- 获得原始文档(原始内容即要搜索的内容)
- 采集文档
- 创建文档
- 分析文档
- 索引文档
获得原始文档
原始文档:是指要 索引和搜索 的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等等。
从互联网、数据库、文件系统中获取要搜索的原始信息,这个过程就是 信息采集,信息采集的目的是对原始内容进行索引。
在互联网上采集信息的程序称为爬虫。Lucene不提供信息采集的类库,需要自己编写一个爬虫程序实现信息采集,也可以使用一些开源软件实现信息采集,如Nutch、JSoup、Heritrix等等。
对于磁盘上文件内容,可以通过IO流来读取文本文件内容,对于pdf、doc、xls等文件可以通过第三方解析工具来读取文件内容,如Apache POI等。
创建文档对象
获得原始内容的目的是为了创建索引,在索引前需要将原始内容创建成 文档(Document),文档中包含多个 域(Field),在域中存储内容。
域可以被理解为一个原始文档的 属性。例如有一个文本文件test.txt,我们将这个文本文件的内容创建成文档(Document),它就包含了许多域,比如有文件名、文件大小、最后修改时间等等,如图:
注意: 每个Document可以有多个Field,不同的Document可以有不同的Field,同一个Document可以有相同的Field
分析文档
将原始内容创建和包含域(Field)的文档(Document)后,需要对域中的内容进行分析,分析的过程是经过对原始文档提取单词、字母大小写转换、去除符号、去除停用词等过程后生成最终的 语汇单元。
例如分析以下文档后:
Lucene is a Java full-text search engine. Lucene is not a complete application, but rather a code library and API that can easily be used to add search capabilities to applications
分析后得到的语汇单元:
lucene、java、full 、search、engine…
将每个语汇单元叫做一个term ,不同的域中拆分出来的相同的语汇单元是不同的 term 。term 中包含两部分一部分是文档的域名,另一部分是内容。例如:文件名中包含 java 和文件内容中包含的 java是不同的 term 。
创建索引
对所有文档分析得出的语汇单元进行 索引,最终要实现只搜索语汇单元就能够找到文档(Document)
搜索过程
红色表示 搜索过程,从索引库中搜索内容,搜索过程包括:
- 用户通过搜索界面
- 创建查询
- 执行搜索,从索引库搜索
- 渲染搜索结果
用户搜索
用户通过前端页面,将要搜索的关键字传递到后端。创建查询
用户输入查询关键词执行搜索前需要先构建一个 查询对象 ,查询对象中可以指定查询要搜索的Field文档域、查询关键字等,查询对象会生成具体的查询语法执行查询
根据查询对象获得对应的索引,从而找到索引所对应的文档。渲染结果
以一个友好的界面将查询结果展示给用户,用户根据搜索结果找自己想要的信息,为了帮助用户很快找到自己的结果,提供了很多展示的效果,比如搜索结果中将 关键字高亮显示,百度提供的快照 等。
代码实现
环境配置
Lucene官方网站点击这里(https://lucene.apache.org/) ,Lucene作为Java中最受欢迎的全文检索工具,更新速度令人发指,本篇文章使用Lucene v6.6.2(https://mirrors.aliyun.com/apache/lucene/java/6.6.2/)(PS:推荐大家使用Maven构建项目,节省到处找包的麻烦)。
下载后解压文件夹,介绍下要用到的子包:
目录名 | 含义 |
---|---|
lucene-analyzers-common | 不同语言和领域通用的分析器 |
lucene-core Lucene | 核心类库 |
lucene-highlighter | 高亮显示关键字 |
lucene-memory | 内存文档 |
lucene-queries Lucene | 核心中用到的过滤器和查询器 |
lucene-queryparser | 解析器和解析框架 |
Query对象
在查询过程中,需要使用到Query类,Query是一个 抽象类 ,这个类的目的是把用户输入的查询字符串封装成Lucene能够识别的Query。Query有许多实现。
- TermQuery
TermQuery是Query的一个子类,他同时也是Lucene支持的 最为基本的一个查询类 。1
/**
2
* TermQuery参数为一个Term对象,Term对象参数为要查询的Field的名称,以及查找的关键字
3
*/
4
TermQuery query=new TermQuery(new Term("title","lucene"));
BooleanQuery
BooleanQuery是实际开发过程中经常使用的一种查询,它其实就是一个组合的Query,在使用中的时候可以把各种Query对象添加进去并且标明它们之间的逻辑关系,逻辑关系有以下几种:
名称 | 含义 |
---|---|
BooleanClause.Occur MUST | 对于必须出现在匹配文档中的子句,使用此运算符。 |
BooleanClause.Occur MUST_NOT | 对于不得出现在匹配文档中的子句使用此运算符。 |
BooleanClause.Occur SHOULD | 对于应出现在匹配文档中的子句,使用此运算符。 |
BooleanClause.Occur FILTER | Like MUST except that these clauses do not participate in scoring. |
逻辑关系含有以下几种组合:
名称 | 含义 |
---|---|
MUST和MUST | 表示”与”的关系,结果为检索子句的交集 |
MUST和MUST_NOT | 查询结果中不能包含MUST_NOT所对应的查询子句的检索结果 |
MUST_NOT和MUST_NOT | 无意义,检索无结果 |
SHOULD和MUST | 无意义,结果为MUST子句的检索结果 |
SHOULD和MUST_NOT | SHOULD功能同MUST,相当于MUST和MUST_NOT的检索结果 |
SHOULD和SHOULD | 表示”或”的关系,结果为检索子句的并集 |
例如求两个query的交集:
1 | TermQuery query1 = new TermQuery(new Term("title","Lucene")); |
2 | TermQuery query2 = new TermQuery(new Term("content","Lucene")); |
3 | |
4 | /** |
5 | * 求query1和query2的交集 |
6 | */ |
7 | BooleanQuery booleanBuery = new BooleanQuery.Builder().add(query1,Occur.MUST).add(query2,Occur.MUST).build(); |
BooleanQuery是可以嵌套的,一个BooleanQuery可以成为另一个BooleanQuery的条件子句。布尔型的子句数目不能超过1024。
NumericRangeQuery
NumericRangeQuery是一个 数值型的范围查询类 ,使用如下:
1 | /** |
2 | * 布尔型的后面的两个参数表示是否可以将两个临界值也加入到搜索中 |
3 | */ |
4 | Query query=NumericRangeQuery.newIntRange(String field,Integer min,Integer max,boolean minInclusive,boolean maxInclusive); |
5 | |
6 | /** |
7 | *例如:查询id在(10000,20000] |
8 | */ |
9 | Query query=NumericRangeQuery.newIntRange("id",10000,20000,false,true); |
PrefixQuery
PrefixQuery功能是 前缀查询 ,查询出某个字段以什么开头的信息:
1 | |
2 | Term term = new Term("content","This"); |
3 | |
4 | /** |
5 | * 查询content以This开头 |
6 | */ |
7 | PrefixQuery query=new PrefixQuery(term); |
PhraseQuery
PhraseQuery功能是 短语查询 ,提供了一种叫做 坡度 的参数,用于表示词组的两个字之间可以 插入无关单词的个数 :
1 | /** |
2 | * 查询标题为《Lucene...框架》,中间不超过5个字符 |
3 | */ |
4 | PhraseQuery phraseQuery=new PhraseQuery(); |
5 | phraseQuery.add(new Term("title","Lucene")); |
6 | phraseQuery.add(new Term("title","框架")); |
7 | //之间的间隔最大不能超过5个 |
8 | phraseQuery.setSlop(5); |
FuzzyQuery
FuzzyQuery作用是 模糊查询 ,在参数中需要指定最小相似度(maxEdits),取值为0、1、2,数字越小,模糊度越低,当为0的时候相当于TermQuery。
1 | Query query=new FuzzyQuery(new Term("title","Lucene"),2); |
WildcardQuery
WildcardQuery叫做 通配符搜索 ,支持符号:
- *代表0到多个字符
- ?代表一个的字符
1
/**
2
* 查询标题为《lu...n》,中间任意多个字符
3
*/
4
Query query=new WildcardQuery(new Term("title","lu*n?"));
MatchAllDocsQuery
MatchAllDocsQuery 作用很简单,就是 搜索全部。1
Query query=new MatchAllDocsQuery();
第一个全文检索例子
本例子项目结构如下:
源码
1 | import java.io.File; |
2 | import java.io.IOException; |
3 | import java.util.Collection; |
4 | |
5 | import org.apache.commons.io.FileUtils; |
6 | import org.apache.lucene.analysis.Analyzer; |
7 | import org.apache.lucene.analysis.standard.StandardAnalyzer; |
8 | import org.apache.lucene.document.Document; |
9 | import org.apache.lucene.document.Field; |
10 | import org.apache.lucene.document.TextField; |
11 | import org.apache.lucene.index.DirectoryReader; |
12 | import org.apache.lucene.index.IndexWriter; |
13 | import org.apache.lucene.index.IndexWriterConfig; |
14 | import org.apache.lucene.index.Term; |
15 | import org.apache.lucene.search.BooleanClause.Occur; |
16 | import org.apache.lucene.search.BooleanQuery; |
17 | import org.apache.lucene.search.IndexSearcher; |
18 | import org.apache.lucene.search.ScoreDoc; |
19 | import org.apache.lucene.search.TermQuery; |
20 | import org.apache.lucene.search.TopDocs; |
21 | import org.apache.lucene.store.Directory; |
22 | import org.apache.lucene.store.FSDirectory; |
23 | |
24 | /** |
25 | * @className FirstDemo.java |
26 | * @version 创建时间:2018年3月4日 下午11:45:36 |
27 | */ |
28 | public class SearchEnglish { |
29 | |
30 | /** |
31 | * 创建索引 |
32 | * @version 创建时间:2018年3月4日 下午11:52:51 |
33 | * @param indexPath 索引路径 |
34 | * @param resourcePath 被索引的路径 |
35 | * @throws IOException |
36 | */ |
37 | public static void createIndex(String indexPath, String resourcePath) throws IOException { |
38 | /* Step1:创建IndexWrite对象 |
39 | * (1)定义词法分析器 |
40 | * (2)确定索引存储位置-->创建Directory对象 |
41 | * (3)得到IndexWriterConfig对象 |
42 | * (4)创建IndexWriter对象 |
43 | */ |
44 | // 使用标准分词器 |
45 | Analyzer analyzer = new StandardAnalyzer(); |
46 | Directory directory = FSDirectory.open(new File(indexPath).toPath()); |
47 | IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer); |
48 | IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig); |
49 | // 清除以前的索引 |
50 | indexWriter.deleteAll(); |
51 | |
52 | // 得到txt后缀的文件集合 |
53 | Collection<File> txtFiles = FileUtils.listFiles(new File(resourcePath), new String[] {"txt"}, true); |
54 | for (File file : txtFiles) { |
55 | String fileName = file.getName(); |
56 | String content = FileUtils.readFileToString(file, "UTF-8"); |
57 | /* |
58 | * Step2:创建Document对象,将Field地下添加到Document中 |
59 | * Field第三个参数选项很多,具体参考API手册 |
60 | */ |
61 | Document document = new Document(); |
62 | document.add(new Field("fileName", fileName, TextField.TYPE_STORED)); |
63 | document.add(new Field("content", content, TextField.TYPE_STORED)); |
64 | |
65 | /* |
66 | *Step4:使用 IndexWrite对象将Document对象写入索引库,并进行索引。 |
67 | */ |
68 | indexWriter.addDocument(document); |
69 | } |
70 | |
71 | if(indexWriter != null) { |
72 | indexWriter.close(); |
73 | } |
74 | } |
75 | |
76 | /** |
77 | * 查询索引 |
78 | * @version 创建时间:2018年3月5日 上午12:38:05 |
79 | * @param indexPath 索引路径 |
80 | * @param keyword 关键字 |
81 | * @throws IOException |
82 | */ |
83 | public static void queryIndex(String indexPath, String keyword) throws IOException { |
84 | /* |
85 | * Step1:创建IndexSearcher对象 |
86 | * (1)创建Directory对象 |
87 | * (2)创建DirectoryReader对象 |
88 | * (3)创建IndexSearcher对象 |
89 | */ |
90 | Directory directory = FSDirectory.open(new File(indexPath).toPath()); |
91 | DirectoryReader reader = DirectoryReader.open(directory); |
92 | IndexSearcher indexSearcher = new IndexSearcher(reader); |
93 | |
94 | /* |
95 | * Step2:创建TermQuery对象,指定查询域和查询关键词 |
96 | */ |
97 | TermQuery query1 = new TermQuery(new Term("fileName",keyword)); |
98 | TermQuery query2 = new TermQuery(new Term("content",keyword)); |
99 | |
100 | /* |
101 | * Step3:创建Query对象 |
102 | */ |
103 | BooleanQuery booleanBuery = new BooleanQuery.Builder().add(query1, Occur.SHOULD).add(query2, Occur.SHOULD) |
104 | .build(); |
105 | |
106 | /* |
107 | * Step4:根据查询条件查询结果,并遍历输出 |
108 | * (1)查询结果得到TopDocs对象 |
109 | * (2)根据topDocs得到ScoreDoc对象 |
110 | * (3)根据scoreDoc得到Document对象 |
111 | * (4)输出结果 |
112 | */ |
113 | TopDocs topDocs = indexSearcher.search(booleanBuery, 100); |
114 | System.out.println("共找到 " + topDocs.totalHits + " 处匹配"); |
115 | ScoreDoc[] scoreDocs = topDocs.scoreDocs; |
116 | for (ScoreDoc scoreDoc : scoreDocs) { |
117 | Document doc = indexSearcher.doc(scoreDoc.doc); |
118 | String fileName = doc.get("fileName"); |
119 | System.out.println("fileName: " + fileName); |
120 | } |
121 | |
122 | if(reader != null) { |
123 | reader.close(); |
124 | } |
125 | } |
126 | |
127 | public static void main(String[] args) { |
128 | // 存放用于查找文件内容的文件夹 |
129 | String resourcePath = "D:\\lucene-resource"; |
130 | // Lucene索引文件夹 |
131 | String indexPath = "D:\\lucene-index"; |
132 | try { |
133 | createIndex(indexPath, resourcePath); |
134 | queryIndex(indexPath, "java"); |
135 | }catch (IOException e) { |
136 | e.printStackTrace(); |
137 | } |
138 | } |
139 | } |
搜索关键字java,结果如下:
中文分词
在上面的例子中,我们已经实现了一个最基本的全文检索。我们知道,全文检索的好坏和分词器(Analyzer)有着十分重要的关系,上面使用的是标准分词器(StandardAnalyzer),在处理英文中还算可以,但是处理中文,就没有了任何效果,我们亟需一个好用的中文分词器。
对于中文处理,Lucene自带了分词器,即SmartChineseAnalyzer,但是扩展性差,扩展词库、禁用词库和同义词库等不好处理。
我们可以使用一些第三方的分词器,主要有以下几种:
- paoding:庖丁解牛,但是其最多只支持到Lucene3,已经过时,不推荐使用。
- mmseg4j:目前支持到Lucene6 ,目前仍然活跃,使用mmseg算法。
- IK-Analyzer:开源的轻量级的中文分词工具包,官方支持到Lucene5。
本篇文章使用IK-Analyzer来进行中文分词,不幸的是IK-Analyzer已经停止维护,其最新版本为IKAnalyzer2012_FF.jar,点击下载(https://code.google.com/archive/p/ik-analyzer/downloads ),与此对应的Lucene版本支持到了Lucene5.5.5(https://mirrors.aliyun.com/apache/lucene/java/5.5.5/) ,点击下载(PS:如果你想使用官方的版本,将Lucene版本修改为Lucene5就可以了)。
为了能够让IK-Analyzer支持到Lucene8,作者自己对源码进行编译,网上大神已经开源了一个支持 最新lucene 版本的.,点击下载(https://github.com/blueshen/ik-analyzer) 源码,自行编译,然后安装到自己仓库,详见开源代码说明。
项目结构如下:
名称 | 含义 |
---|---|
IK-Analyzer.cfg.xml | IK分词的配置文件 |
ext.dic | 扩展字典,里面放上你要添加的新词语 |
stop.dic | 扩展停止词字典,放置例如“的 了”这样的停止词,这些词会被筛除掉 |
编辑配置文件IKAnalyzer.cfg.xml:
1 |
|
2 | |
3 | <properties> |
4 | <!-- 注意:下面两个文件保存编码必须为UTF-8,否则会导致无效! --> |
5 | <comment>IK Analyzer 扩展配置</comment> |
6 | <!--用户可以在这里配置自己的扩展字典 --> |
7 | <entry key="ext_dict">ext.dic;</entry> |
8 | <!--用户可以在这里配置自己的扩展停止词字典--> |
9 | <entry key="ext_stopwords">stop.dic;</entry> |
10 | </properties> |
编写中文分词的类:
1 | import java.io.File; |
2 | import java.io.IOException; |
3 | import java.nio.file.FileSystems; |
4 | import java.util.Collection; |
5 | |
6 | import org.apache.commons.io.FileUtils; |
7 | import org.apache.lucene.analysis.Analyzer; |
8 | import org.apache.lucene.analysis.TokenStream; |
9 | import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; |
10 | import org.apache.lucene.document.Document; |
11 | import org.apache.lucene.document.Field; |
12 | import org.apache.lucene.document.TextField; |
13 | import org.apache.lucene.index.DirectoryReader; |
14 | import org.apache.lucene.index.IndexWriter; |
15 | import org.apache.lucene.index.IndexWriterConfig; |
16 | import org.apache.lucene.index.Term; |
17 | import org.apache.lucene.search.BooleanClause.Occur; |
18 | import org.apache.lucene.search.BooleanQuery; |
19 | import org.apache.lucene.search.IndexSearcher; |
20 | import org.apache.lucene.search.ScoreDoc; |
21 | import org.apache.lucene.search.TermQuery; |
22 | import org.apache.lucene.search.TopDocs; |
23 | import org.apache.lucene.store.Directory; |
24 | import org.apache.lucene.store.FSDirectory; |
25 | import org.wltea.analyzer.lucene.IKAnalyzer; |
26 | |
27 | /** |
28 | * @className FirstDemo.java |
29 | * @version 创建时间:2018年3月4日 下午11:45:36 |
30 | */ |
31 | public class SearchChinese { |
32 | |
33 | /** |
34 | * 创建索引 |
35 | * @version 创建时间:2018年3月4日 下午11:52:51 |
36 | * @param indexPath 索引路径 |
37 | * @param resourcePath 被索引的路径 |
38 | * @throws IOException |
39 | */ |
40 | public static void createIndex(String indexPath, String resourcePath) throws IOException { |
41 | // 使用IK分词器 |
42 | Analyzer analyzer = new IKAnalyzer(); |
43 | Directory directory = FSDirectory.open(FileSystems.getDefault().getPath(indexPath)); |
44 | IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer); |
45 | IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig); |
46 | // 清除以前的索引 |
47 | indexWriter.deleteAll(); |
48 | |
49 | // 得到txt后缀的文件集合 |
50 | Collection<File> txtFiles = FileUtils.listFiles(new File(resourcePath), new String[] { "txt" }, true); |
51 | for (File file : txtFiles) { |
52 | String fileName = file.getName(); |
53 | // 以UTF-8编码读取文件内容,如果文件不是该编码,去掉该参数即可 |
54 | String content = FileUtils.readFileToString(file, "UTF-8"); |
55 | |
56 | Document document = new Document(); |
57 | document.add(new Field("fileName", fileName, TextField.TYPE_STORED)); |
58 | document.add(new Field("content", content, TextField.TYPE_STORED)); |
59 | indexWriter.addDocument(document); |
60 | |
61 | printParticiple(analyzer, content); |
62 | } |
63 | |
64 | if (indexWriter != null) { |
65 | indexWriter.close(); |
66 | } |
67 | } |
68 | |
69 | /** |
70 | * 查询索引 |
71 | * @version 创建时间:2018年3月5日 上午12:38:05 |
72 | * @param indexPath 索引路径 |
73 | * @param keyword 关键字 |
74 | * @throws IOException |
75 | */ |
76 | public static void queryIndex(String indexPath, String keyword) throws Exception { |
77 | Directory directory = FSDirectory.open(new File(indexPath).toPath()); |
78 | DirectoryReader reader = DirectoryReader.open(directory); |
79 | IndexSearcher indexSearcher = new IndexSearcher(reader); |
80 | |
81 | TermQuery query1 = new TermQuery(new Term("fileName", keyword)); |
82 | TermQuery query2 = new TermQuery(new Term("content", keyword)); |
83 | BooleanQuery booleanBuery = new BooleanQuery.Builder().add(query1, Occur.SHOULD).add(query2, Occur.SHOULD) |
84 | .build(); |
85 | TopDocs topDocs = indexSearcher.search(booleanBuery, 100); |
86 | |
87 | System.out.println("共找到 " + topDocs.totalHits + " 处匹配"); |
88 | ScoreDoc[] scoreDocs = topDocs.scoreDocs; |
89 | for (ScoreDoc scoreDoc : scoreDocs) { |
90 | Document doc = indexSearcher.doc(scoreDoc.doc); |
91 | String fileName = doc.get("fileName"); |
92 | String content = doc.get("content"); |
93 | System.out.println("fileName: " + fileName); |
94 | System.out.println("content: " + content); |
95 | } |
96 | |
97 | if (reader != null) { |
98 | reader.close(); |
99 | } |
100 | } |
101 | |
102 | /** |
103 | * 输出分词的具体内容 |
104 | * @version 创建时间:2018年3月5日 下午11:13:09 |
105 | * @param analyzer 分词器 |
106 | * @param content 内容 |
107 | * @throws IOException |
108 | */ |
109 | public static void printParticiple(Analyzer analyzer, String content) throws IOException { |
110 | TokenStream tokenStream = analyzer.tokenStream("", content); |
111 | |
112 | // 设置一个引用(相当于指针),这个引用可以是多种类型,可以是关键词的引用,偏移量的引用等等,charTermAttribute对象代表当前的关键词 |
113 | CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class); |
114 | // 调用tokenStream的reset方法,不调用该方法,会抛出一个异常 |
115 | tokenStream.reset(); |
116 | // 使用while循环来遍历单词列表 |
117 | while (tokenStream.incrementToken()) { |
118 | System.out.println(charTermAttribute); |
119 | } |
120 | tokenStream.close(); |
121 | } |
122 | |
123 | public static void main(String[] args) { |
124 | // 存放用于查找文件内容的文件夹 |
125 | String resourcePath = "D:\\lucene-resource"; |
126 | // Lucene索引文件夹 |
127 | String indexPath = "D:\\lucene-index"; |
128 | try { |
129 | createIndex(indexPath, resourcePath); |
130 | queryIndex(indexPath, "jitwxs"); |
131 | } catch (Exception e) { |
132 | e.printStackTrace(); |
133 | } |
134 | } |
135 | } |
这次只准备一个文件测试下即可:
测试下分词效果
分词效果还可以,但是我们要搜的jitwxs却没有搜到,因为它自带的字典中没有这个词,自然没法识别出来。我们知道IK-Analyzer相较于自带的SmartChineseAnalyzer最大的优点就是 扩展性 ,我们在之前的扩展字典文件ext.dic中添加单词jitwxs:
注 这两个文件一定要确保是UTF-8编码,否则会导致无法生效(IK-Analyzer内部我是用UTF-8读取的)。重新运行程序,成功识别出了我们添加的单词:
代码高亮
首先自定义代码高亮的代码,然后对每个filed进行取值,包含关键字会高亮显示,否则为空:
1 | /** |
2 | * 高亮显示代码 |
3 | * @version 创建时间:2018年3月6日 上午9:08:56 |
4 | * @param query 查询对象 |
5 | * @param doc Document对象 |
6 | * @param fieldName filed名 |
7 | * @param startCode 高亮起始代码 |
8 | * @param endCode 高亮结束代码 |
9 | * @return |
10 | * @throws IOException |
11 | * @throws InvalidTokenOffsetsException |
12 | */ |
13 | public static String highlight(Query query, Document doc, String fieldName, String startCode, String endCode) throws IOException, InvalidTokenOffsetsException { |
14 | QueryScorer scorer = new QueryScorer(query); |
15 | // 设置高亮的格式 |
16 | SimpleHTMLFormatter formatter = new SimpleHTMLFormatter(startCode, endCode); |
17 | |
18 | Highlighter highlighter = new Highlighter(formatter, scorer); |
19 | // 设置高亮的分段 |
20 | highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer)); |
21 | |
22 | String fieldVale = doc.get(fieldName); |
23 | // 高亮代码,如果没找到匹配的,返回null |
24 | String tmp = highlighter.getBestFragment(new IKAnalyzer(), fieldName, fieldVale); |
25 | if(tmp != null) { |
26 | return tmp; |
27 | } else { |
28 | return fieldVale; |
29 | } |
30 | } |
完整代码:
1 | import java.io.File; |
2 | import java.io.IOException; |
3 | import java.nio.file.FileSystems; |
4 | import java.util.Collection; |
5 | |
6 | import org.apache.commons.io.FileUtils; |
7 | import org.apache.lucene.analysis.Analyzer; |
8 | import org.apache.lucene.document.Document; |
9 | import org.apache.lucene.document.Field; |
10 | import org.apache.lucene.document.TextField; |
11 | import org.apache.lucene.index.DirectoryReader; |
12 | import org.apache.lucene.index.IndexWriter; |
13 | import org.apache.lucene.index.IndexWriterConfig; |
14 | import org.apache.lucene.index.Term; |
15 | import org.apache.lucene.search.BooleanClause.Occur; |
16 | import org.apache.lucene.search.BooleanQuery; |
17 | import org.apache.lucene.search.IndexSearcher; |
18 | import org.apache.lucene.search.Query; |
19 | import org.apache.lucene.search.ScoreDoc; |
20 | import org.apache.lucene.search.TermQuery; |
21 | import org.apache.lucene.search.TopDocs; |
22 | import org.apache.lucene.search.highlight.Highlighter; |
23 | import org.apache.lucene.search.highlight.InvalidTokenOffsetsException; |
24 | import org.apache.lucene.search.highlight.QueryScorer; |
25 | import org.apache.lucene.search.highlight.SimpleHTMLFormatter; |
26 | import org.apache.lucene.search.highlight.SimpleSpanFragmenter; |
27 | import org.apache.lucene.store.Directory; |
28 | import org.apache.lucene.store.FSDirectory; |
29 | import org.wltea.analyzer.lucene.IKAnalyzer; |
30 | |
31 | /** |
32 | * @className SearchHighlighter.java |
33 | * @version 创建时间:2018年3月6日 上午12:32:34 |
34 | */ |
35 | public class SearchHighlighter { |
36 | /** |
37 | * 创建索引 |
38 | * @version 创建时间:2018年3月4日 下午11:52:51 |
39 | * @param indexPath 索引路径 |
40 | * @param resourcePath 被索引的路径 |
41 | * @throws IOException |
42 | */ |
43 | public static void createIndex(String indexPath, String resourcePath) throws IOException { |
44 | // 使用IK分词器 |
45 | Analyzer analyzer = new IKAnalyzer(); |
46 | Directory directory = FSDirectory.open(FileSystems.getDefault().getPath(indexPath)); |
47 | IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer); |
48 | IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig); |
49 | // 清除以前的索引 |
50 | indexWriter.deleteAll(); |
51 | |
52 | // 得到txt后缀的文件集合 |
53 | Collection<File> txtFiles = FileUtils.listFiles(new File(resourcePath), new String[] { "txt" }, true); |
54 | for (File file : txtFiles) { |
55 | String fileName = file.getName(); |
56 | // 以UTF-8编码读取文件内容,如果文件不是该编码,去掉该参数即可 |
57 | String content = FileUtils.readFileToString(file, "UTF-8"); |
58 | |
59 | Document document = new Document(); |
60 | document.add(new Field("fileName", fileName, TextField.TYPE_STORED)); |
61 | document.add(new Field("content", content, TextField.TYPE_STORED)); |
62 | indexWriter.addDocument(document); |
63 | } |
64 | if (indexWriter != null) { |
65 | indexWriter.close(); |
66 | } |
67 | } |
68 | |
69 | /** |
70 | * 查询索引 |
71 | * @version 创建时间:2018年3月5日 上午12:38:05 |
72 | * @param indexPath 索引路径 |
73 | * @param keyword 关键字 |
74 | * @throws IOException |
75 | */ |
76 | public static void queryIndex(String indexPath, String keyword) throws Exception { |
77 | Directory directory = FSDirectory.open(new File(indexPath).toPath()); |
78 | DirectoryReader reader = DirectoryReader.open(directory); |
79 | IndexSearcher indexSearcher = new IndexSearcher(reader); |
80 | |
81 | TermQuery query1 = new TermQuery(new Term("fileName", keyword)); |
82 | TermQuery query2 = new TermQuery(new Term("content", keyword)); |
83 | BooleanQuery booleanBuery = new BooleanQuery.Builder().add(query1, Occur.SHOULD).add(query2, Occur.SHOULD) |
84 | .build(); |
85 | TopDocs topDocs = indexSearcher.search(booleanBuery, 100); |
86 | |
87 | // 定义高亮代码(前后加红色) |
88 | String startCode = "<span style=\"color:red\">"; |
89 | String endCode = "</span>"; |
90 | |
91 | System.out.println("共找到 " + topDocs.totalHits + " 处匹配"); |
92 | ScoreDoc[] scoreDocs = topDocs.scoreDocs; |
93 | for (ScoreDoc scoreDoc : scoreDocs) { |
94 | Document doc = indexSearcher.doc(scoreDoc.doc); |
95 | |
96 | // 高亮代码 |
97 | String fileName = highlight(booleanBuery, doc, "fileName", startCode, endCode); |
98 | String content = highlight(booleanBuery, doc, "content", startCode, endCode); |
99 | |
100 | System.out.println("fileName: " + fileName); |
101 | System.out.println("content: " + content); |
102 | } |
103 | |
104 | if (reader != null) { |
105 | reader.close(); |
106 | } |
107 | } |
108 | |
109 | /** |
110 | * 高亮显示代码 |
111 | * @version 创建时间:2018年3月6日 上午9:08:56 |
112 | * @param query 查询对象 |
113 | * @param doc Document对象 |
114 | * @param fieldName filed名 |
115 | * @param startCode 高亮起始代码 |
116 | * @param endCode 高亮结束代码 |
117 | * @return |
118 | * @throws IOException |
119 | * @throws InvalidTokenOffsetsException |
120 | */ |
121 | public static String highlight(Query query, Document doc, String fieldName, String startCode, String endCode) throws IOException, InvalidTokenOffsetsException { |
122 | QueryScorer scorer = new QueryScorer(query); |
123 | // 设置高亮的格式 |
124 | SimpleHTMLFormatter formatter = new SimpleHTMLFormatter(startCode, endCode); |
125 | |
126 | Highlighter highlighter = new Highlighter(formatter, scorer); |
127 | // 设置高亮的分段 |
128 | highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer)); |
129 | |
130 | String fieldVale = doc.get(fieldName); |
131 | // 高亮代码,如果没找到匹配的,返回null |
132 | String tmp = highlighter.getBestFragment(new IKAnalyzer(), fieldName, fieldVale); |
133 | if(tmp != null) { |
134 | return tmp; |
135 | } else { |
136 | return fieldVale; |
137 | } |
138 | } |
139 | |
140 | public static void main(String[] args) { |
141 | // 存放用于查找文件内容的文件夹 |
142 | String resourcePath = "D:\\lucene-resource"; |
143 | // Lucene索引文件夹 |
144 | String indexPath = "D:\\lucene-index"; |
145 | try { |
146 | createIndex(indexPath, resourcePath); |
147 | queryIndex(indexPath, "jitwxs"); |
148 | } catch (Exception e) { |
149 | e.printStackTrace(); |
150 | } |
151 | } |
152 | } |
高亮结果: