
论文摘要
在当今信息大爆炸的时代,快速从海量的信息中找到所求成为信息应用的核心任务。特别是企业级的数据散落在多种结构,不同的数据源之上,如何对数据进行结构化并提供统一的查询接口对于企业级的信息搜索是重大的挑战。企业内容搜索是一个较新的领域,它涉及到信息平台整合,数据管理,海量数据管理,信息检索等多种技术。目前的企业内容搜索技术,多是先将数据集中化,而后将搜索引擎技术融入到企业内容搜索中,通过构造全文索引来达到快速全面检索数据的目的。本文设计并完成了基于Lucene框架的全文索引系统。在Lucene只能处理文本文档的基础上,增加了对于Office系列文档,PDF文档,HTML文档的支持。全文索引系统通过对非结构化的本文进行分词,索引等处理构建反向索引。最终通过排名算法,将结果按照相关性的高低呈现给用户,从而达到快速精准的检索目的。最终系统向外提供统一的查询接口,提供简单的关键字搜索和带语法的高级搜索功能,增加了多字段搜索功能。提供给用户搜索界面这一对用户友好的检索方式,增加了对于拼音搜索的支持,用户通过输入拼音返回汉字来辅助搜索。返回的信息中包括关键字的高亮显示的功能,让用户能够从摘要中看到查询结果中是否为其所需。采用了基于词频统计的方法提取新词,提取后的新词将会被加入到系统的分词词典中,系统采用基于规则的中文分词方法,一个海量的词典可以提高分词的准确度。通过对于新词的识别,并将新词加入分词词典,提高了中文分词的准确度。加入拼音搜索功能提升用户体验。丰富的查询语法,使得检索功能更加强大。加入内容摘要使得用户能够更好的判断检索结果是否所需。
论文目录
摘要Abstract目录图目录表目录第一章 绪论1.1 背景1.2 设计方案1.3 本文的组织结构第二章 相关技术2.1 信息检索2.2 信息检索模型2.2.1 布尔模型2.2.2 向量模型2.3 开源的全文索引工具包Lucene2.3.1 Lucene的整体架构2.3.2 Lucene索引机制2.3.3 Lucene索引建立流程2.4 新词识别技术2.5 本章小结第三章 系统分析与设计3.1 系统用例分析3.2 系统总体设计3.3 文档预处理的设计3.3.1 Office文档文本提取的设计3.3.2 PDF文本提取的设计3.3.3 HTML文本提取的设计3.4 新词的识别的设计3.4.1 新词识别的分析3.4.2 新词识别详细设计3.5 索引模块的设计3.6 检索模块的设计3.6.1 检索模块分析3.6.2 检索模块详细设计3.7 拼音搜索的设计3.7.1 拼音搜索分析3.7.2 拼音搜索详细设计3.8 本章小结第四章 全文索引系统的实现4.1 文档预处理模块的实现4.1.1 HTMLProcessor的实现4.1.2 PDFProcessor的实现4.1.3 OFFICE文件文本提取的实现4.2 新词识别的实现4.2.1 汉字构词能力统计的实现4.2.2 2元候选词识别的实现4.2.3 高元候选词识别的实现4.3 索引模块的实现4.4 拼音搜索模块的实现4.5 检索模块的实现4.6 本章小结第五章 总结与展望5.1 本文的工作5.2 下一步的工作参考文献致谢参与的项目
相关论文文献
标签:全文索引系统论文; 新词识别论文;