垂直搜索引擎技术的研究及实现

论文摘要

在信息社会中,如何在浩如烟海的信息中找到我们所需要的、有用的信息成为一个十分重要的问题,Web搜索引擎也因此应运而生,影响我们的生活。目前许多搜索引擎都使用基于关键字查询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。例如,在百度中搜索“搜索引擎”,找到相关网页约51,200,000篇,在google中找到14,600,000篇。搜索结果数量巨大,根本没办法全部浏览。并且其中大部分网页对用户是没有用的。由此可见,搜索引擎仅有广度,没有深度,是不能满足用户需求的。对这个问题的解决办法是建立垂直搜索引擎。垂直搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与综合搜索引擎截然不同的引擎类型。本文根据开源代码Lucene、Heritrix等进行垂直搜索引擎技术的研究,主要包括搜索引擎的架构组成,Lucene、Heritrix的架构组成,及如何构建垂直搜索引擎。本文首先介绍搜索引擎的历史,然后介绍搜索引擎的基本构成。接下来介绍Hritrix和Lucene的架构及主要部件。并对深度优先查找、广度优先查找算法、trie算法进行研究,提出用trie实现倒排索引的想法。最后结合实例介绍构建垂直搜索引擎的全过程。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 搜索引擎发展历史与现状

1.3 课题研究的意义

1.4 论文的组织结构

第二章搜索引擎原理

2.1 综合搜索引擎

2.1.1 搜索引擎的工作过程

2.1.2 搜索引擎的系统架构

2.1.3 搜索引擎的相关策略与技术

2.2 垂直搜索引擎

2.2.1 垂直搜索引擎概述

2.2.2 垂直搜索引擎和综合搜索引擎的区别与应用方向

2.2.3 垂直搜索引擎的主要技术

第三章网页信息搜集

3.1 Heritrix的框架组成

3.1.1 抓取任务CrawlOrder

3.1.2 中央控制器CrawlController

3.1.3 Frontier链接制造工厂

3.1.4 用Berkeley DB实现的BdbFrontier

3.1.5 Heritrix的多线程ToeThread和ToePool

3.1.6 处理链和Processor

3.2 扩展和定制Heritrix

3.2.1 向Heritrix中添加自己的Extractor

3.2.2 扩展FrontierScheduler来抓取特定的内容

3.2.3 在Prefetcher中取消robots.txt的限制

3.3 深度优先查找算法与广度优先查找算法

3.3.1 深度优先查找（depth-first search,DFS）算法

3.3.2 广度优先查找（breadth-first search,BFS）算法

第四章网页信息预处理

4.1 全文检索引擎Lucene框架

4.1.1 全文检索与全文检索系统

4.1.2 Lucene的系统结构

4.2 Lucene的索引结构分析

4.3 用trie实现倒排索引的研究

4.3.1 trie

4.3.2 标准trie

4.3.3 压缩trie

4.3.4 后缀trie

4.3.5 trie在搜索引擎中的应用

第五章垂直搜索引擎的实现

5.1 Eclipse环境的搭建

5.1.1 安装配置Heritrix 1.12.1

5.1.2 在Eclipse中启动Heritrix

5.1.3 在Eclipse中创建mypaper工程结构

5.2 网页信息搜集

5.3 网页信息处理

5.3.1 网页内容提取方法

5.3.2 解析网页信息的Extractor

5.3.3 构建产品信息词库

5.3.4 索引与数据库

5.4 提供网页信息服务

5.4.1 后台程序的设计

5.4.2 前台程序的设计

第六章总结与展望

参考文献

致谢

垂直搜索引擎技术的研究及实现

论文摘要

论文目录

相关论文文献

猜你喜欢