垂直搜索引擎设计与实现

垂直搜索引擎设计与实现

论文摘要

本文首先简述了搜索引擎在如今信息时代的作用,并介绍了为满足专业化领域需求的垂直搜索引擎。其次对搜索引擎中的爬虫工具Heritrix进行了深入的分析,研究了其工作过程、原理,就其提供的扩展接口给出了具体的实现模式,主要用于对网页信息的抓取过程中,该模式下如何减少无效网页的冗余,实现网页内容抓取的可控性。其次,对Lucene的主要功能模块进行了深入的研究分析,主要针对其在全文检索系统运用中所特有的优势进行讨论,并详细研究了其源代码,在此基础上概括出Lucene索引的建立过程,索引的结构,检索如何构造以及检索结果排序等核心机制的实现流程和原理。最后本文在对Heritrix及Lucene分析的基础上,论述了构建一个具有全文检索功能的搜索引擎系统的设计思想。该系统最终实现对网站内数码相机信息的抓取以及实现产品检索功能。本文核心论述了如何以Heritrix作为爬虫,通过对网站结构的分析,对Heritrix进行功能扩展,达到提高信息的抓取效率的目的;并且利用Lucene建立了整个系统的索引和检索部分等检索的核心部分。针对系统的实际需求,定义了数据的封装对象,作为建立索引时Document对应的对象。针对Lucene中文分词存在的缺陷,引入了JE分词作为系统的文本分析器,实现了对中文的处理功能。并且在检索时为用户提供了默认的检索域,避免了多域检索带来的性能损失。最后,还为系统的功能扩展预留了接口。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景
  • 1.2 选题目的与意义
  • 1.3 论文主要工作
  • 1.4 论文章节安排
  • 第二章 搜索引擎原理及技术
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎定义
  • 2.1.2 搜索引擎的发展
  • 2.1.3 主流搜索引擎介绍
  • 2.2 搜索引擎主要技术
  • 2.2.1 搜索器
  • 2.2.2 索引器
  • 2.2.3 检索器
  • 2.2.4 文本分析器
  • 第三章 关键技术分析与研究
  • 3.1 Heritrix概述
  • 3.1.1 Heritrix简述
  • 3.1.2 Heritrix的架构及组件
  • 3.2 Lucene分析与研究
  • 3.2.1 Lucene简述
  • 3.2.2 Lucene的特点
  • 第四章 垂直搜索引擎系统设计与实现
  • 4.1 系统功能需求分析
  • 4.1.1 垂直搜索引擎概念
  • 4.1.2 系统功能需求分析
  • 4.1.3 系统功能
  • 4.2 系统总体设计
  • 4.3 信息采集模块设计与实现
  • 4.3.1 定向网页抓取性能分析
  • 4.3.2 定向网页抓取机制设计
  • 4.3.3 信息采集模块设计与实现
  • 4.3.4 小结
  • 4.4 系统索引模块设计与实现
  • 4.4.1 Lucene索引机制
  • 4.4.2 索引模块的设计与实现
  • 4.4.3 索引的优化
  • 4.4.4 文本分析系统设计
  • 4.4.5 小结
  • 4.5 数据库模块设计与实现
  • 4.6 系统检索模块设计与实现
  • 4.6.1 Lucene检索机制
  • 4.6.2 检索模块设计与实现
  • 4.6.3 排序机制
  • 4.6.4 小结
  • 4.7 测试结果
  • 4.7.1 信息采集模块测试
  • 4.7.2 索引模块测试
  • 4.7.3 检索模块测试
  • 第五章 结束语
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  

    垂直搜索引擎设计与实现
    下载Doc文档

    猜你喜欢