基于Herixtrix和Lucene的Web站内搜索系统

论文摘要

网站随着内容量的一步一步增加,人们查询信息越来越困难,很多内容在发表之后就很快被湮没,不能被用户找到,成为“信息孤岛”。垂直搜索引擎通过网络搜索软件(又称为网络搜索机器人),收集网站内大量的页面,经过加工处理后建库,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。论文讨论并研究一个垂直搜索引擎所需的基本技术和基本建设过程。通过研究网页抓取技术的中央控制器和核心组件,并且分析需要检索的网站的构架和具体页面布局,相应的完成对网络搜索软件的扩展和定制,成功将设计中要求的网页抓取下来。然后经过网页解析技术处理,具体分析每个页面,剔除网页上由于美观,构架等于原因产生的无用重复的信息,找到网站希望被用户检索到的关键内容。同时基于Lucene开源包为各种内容建立了索引,其中的分词部分是采用在Lucene中文分词组件的基础上加入自己构建的产品字库来完成对中文的分词。最后以DWR为框架设计了一个简易的搜索引擎客户端完成WEB部分提供用户检索。

论文目录

摘要

Abstract

第一章绪论

1.1 概念

1.2 起源及发展

1.3 工作原理及方式

1.3.1 抓取网页

1.3.2 处理网页

1.3.3 提供检索服务

1.4 发展趋势

1.4.1 提高搜索引擎对用户检索提问的理解

1.4.2 对检索结果进行处理

1.4.3 提高针对性

1.5 分类

1.5.1 全文索引

1.5.2 目录索引

1.5.3 元搜索引擎

1.5.4 垂直搜索引擎

1.6 论文的主要工作和章节安排

第二章网页抓取技术及具体实现

2.1 基本原理

2.2 使用及注意事项

2.2.1 网络蜘蛛的访问控制

2.2.2 网络蜘蛛的内容提取

2.2.3 网络蜘蛛的更新周期

2.3 网络蜘蛛的选择

2.4 使用网络蜘蛛抓取网站内容

2.4.1 构建下载逻辑

2.4.2 下载和运行

2.4.3 创建抓取任务

2.4.4 设计更新算法

第三章网页解析及实现

3.1 网页噪声

3.2 网页解析

3.2.1 利用HTML 标记分布规律进行解析

3.2.2 利用HTML 标记间的关系进行解析

3.2.3 利用页面的视觉特征进行解析

3.2.4 利用TABLE 标记的布局特性进行解析

3.3 实现网页解析

3.3.1 对结果的构想

3.3.2 设计

3.3.3 结果测试

第四章全文检索系统及其索引的建立

4.1 什么是全文检索与全文检索系统

4.2 中文分词

4.2.1 中文分词的概念

4.2.2 中文分词技术

4.2.3 现有分词简介

4.2.4 构建产品信息词库

4.3 基于Lucene 的索引及其实现

4.3.1 什么是Lucene

4.3.2 Lucene 的特点及优势

4.3.3 Lucene 系统结构分析

4.3.4 Lucene 索引文件格式

4.3.5 Lucene 索引构建逻辑模块

4.3.6 索引的实现

4.3.7 结果测试

第五章搜索系统的WEB 部分

5.1 配置文件和各种Beans 类

5.2 执行搜索功能的类

5.3 页面设计

第六章结论和展望

致谢

参考文献

基于Herixtrix和Lucene的Web站内搜索系统

论文摘要

论文目录

相关论文文献

猜你喜欢