基于Lucene和Heririx构建搜索引擎的研究和示例实现

基于Lucene和Heririx构建搜索引擎的研究和示例实现

论文摘要

随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎(Search Engine)网站是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术己经经历了三个发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究主要集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。论文首先介绍了Lucene这种目前用于构建全文检索系统和搜索引擎使用最广泛的技术,分析了它的架构以及主要工作原理。构建搜索引擎,必不可少的是使用网络爬虫对网络资源进行分析,抓取。在论文接下来的部分,对网络爬虫Heritrix进行了深入的分析,对各个核心部件进行了详细介绍。最后,根据示例设计的需求,对Heritrix的抓取进行了定制。在此基础上,构建了一个搜索引擎示例,演示了它的功能。论文的最后一章,在深入分析高级搜索技术的基础上,对性能提升的策略进行了总结,实现了搜索优化以及性能提升。在附录部分,对Lucene的分析器进行了分析,实现了一个中文分析器,加入到示例中,提高了示例搜索结果的准确度以及搜索结果的范围。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章绪论
  • 1.1 搜索引擎简介
  • 1.2 搜索引擎工作原理简介
  • 1.3 搜索引擎产生的背景和发展历史
  • 1.4 搜索引擎的分类
  • 1.5 论文主要工作
  • 1.6 论文章节安排
  • 第二章 Lucene核心原理祥析
  • 2.1 Lucene 简介
  • 2.2 索引(Indexing)分析
  • 2.2.1 索引过程分析
  • 2.2.1.1 转换成文本
  • 2.2.1.2 将分析过后的数据写入索引
  • 2.2.2 控制索引过程
  • 2.3 搜索(Searching)分析
  • 2.3.1 搜索核心API IndexSearcher
  • 2.3.2 搜索结果集Hits
  • 2.3.3 Lucene评分机制
  • 2.3.4 Lucene 内建的Query 对象分析
  • 2.4 本章小结
  • 第三章网络爬虫Heritrix 祥析
  • 3.1 网络爬虫简介
  • 3.2 Heritrix 架构分析
  • 3.2.1 CrawlOrder 抓取任务控制
  • 3.2.2 CrawController 中央控制器
  • 3.2.3 Frontier 链接制造工厂
  • 3.2.4 Heritrix 的多线程ToeThread 和ToePool
  • 3.2.5 处理链和Processor
  • 3.3 本章小结
  • 第四章 搜索引擎示例的设计实现
  • 4.1 搜索引擎示例的总体结构介绍
  • 4.2 网页抓取器的设计实现
  • 4.2.1 定制 Extractor
  • 4.2.2 扩展FrontierScheduler 过滤下载内容
  • 4.2.3 取消robots.txt 的限制
  • 4.2.4 Heritrix 对网页的抓取实现
  • 4.3 索引模块的设计实现
  • 4.3.1 文件内容分析器设计实现
  • 4.3.2 索引器的设计与实现
  • 4.4 搜索模块的设计实现
  • 4.4.1 搜索器的设计实现
  • 4.4.2 用户界面search.jsp 的设计实现
  • 4.5 搜索引擎示例的运行演示
  • 4.6 本章小结
  • 第五章 搜索引擎示例的搜索优化
  • 5.1 Lucene 搜索结果排序调整
  • 5.1.1 使用Lucene 的Sort 类对搜索结果排序
  • 5.2 使用Filter(过滤器)缩小示例搜索引擎的搜索结果集
  • 5.2.1 使用QueryFilter 在搜索结果中再次搜索
  • 5.3 Lucene 排序算法的改进实现
  • 5.4 本章小结
  • 第六章 结束语
  • 附录:Lucene 分析器和中文分词
  • 致谢
  • 个人简历,攻硕期间发表的学术论文
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  

    基于Lucene和Heririx构建搜索引擎的研究和示例实现
    下载Doc文档

    猜你喜欢