基于Lucene全文索引系统设计与实现

论文摘要

在当今信息大爆炸的时代,快速从海量的信息中找到所求成为信息应用的核心任务。特别是企业级的数据散落在多种结构,不同的数据源之上,如何对数据进行结构化并提供统一的查询接口对于企业级的信息搜索是重大的挑战。企业内容搜索是一个较新的领域,它涉及到信息平台整合,数据管理,海量数据管理,信息检索等多种技术。目前的企业内容搜索技术,多是先将数据集中化,而后将搜索引擎技术融入到企业内容搜索中,通过构造全文索引来达到快速全面检索数据的目的。本文设计并完成了基于Lucene框架的全文索引系统。在Lucene只能处理文本文档的基础上,增加了对于Office系列文档,PDF文档,HTML文档的支持。全文索引系统通过对非结构化的本文进行分词,索引等处理构建反向索引。最终通过排名算法,将结果按照相关性的高低呈现给用户,从而达到快速精准的检索目的。最终系统向外提供统一的查询接口,提供简单的关键字搜索和带语法的高级搜索功能,增加了多字段搜索功能。提供给用户搜索界面这一对用户友好的检索方式,增加了对于拼音搜索的支持,用户通过输入拼音返回汉字来辅助搜索。返回的信息中包括关键字的高亮显示的功能,让用户能够从摘要中看到查询结果中是否为其所需。采用了基于词频统计的方法提取新词,提取后的新词将会被加入到系统的分词词典中,系统采用基于规则的中文分词方法,一个海量的词典可以提高分词的准确度。通过对于新词的识别,并将新词加入分词词典,提高了中文分词的准确度。加入拼音搜索功能提升用户体验。丰富的查询语法,使得检索功能更加强大。加入内容摘要使得用户能够更好的判断检索结果是否所需。

论文目录

摘要

Abstract

图目录

表目录

第一章绪论

1.1 背景

1.2 设计方案

1.3 本文的组织结构

第二章相关技术

2.1 信息检索

2.2 信息检索模型

2.2.1 布尔模型

2.2.2 向量模型

2.3 开源的全文索引工具包Lucene

2.3.1 Lucene的整体架构

2.3.2 Lucene索引机制

2.3.3 Lucene索引建立流程

2.4 新词识别技术

2.5 本章小结

第三章系统分析与设计

3.1 系统用例分析

3.2 系统总体设计

3.3 文档预处理的设计

3.3.1 Office文档文本提取的设计

3.3.2 PDF文本提取的设计

3.3.3 HTML文本提取的设计

3.4 新词的识别的设计

3.4.1 新词识别的分析

3.4.2 新词识别详细设计

3.5 索引模块的设计

3.6 检索模块的设计

3.6.1 检索模块分析

3.6.2 检索模块详细设计

3.7 拼音搜索的设计

3.7.1 拼音搜索分析

3.7.2 拼音搜索详细设计

3.8 本章小结

第四章全文索引系统的实现

4.1 文档预处理模块的实现

4.1.1 HTMLProcessor的实现

4.1.2 PDFProcessor的实现

4.1.3 OFFICE文件文本提取的实现

4.2 新词识别的实现

4.2.1 汉字构词能力统计的实现

4.2.2 2元候选词识别的实现

4.2.3 高元候选词识别的实现

4.3 索引模块的实现

4.4 拼音搜索模块的实现

4.5 检索模块的实现

4.6 本章小结

第五章总结与展望

5.1 本文的工作

5.2 下一步的工作

参考文献

致谢

参与的项目

基于Lucene全文索引系统设计与实现

论文摘要

论文目录

相关论文文献

猜你喜欢