可扩展分布式垂直搜索引擎设计与实现研究

可扩展分布式垂直搜索引擎设计与实现研究

论文摘要

众所周知,在浩如烟海的互联网上存在着大量的隐蔽网络资源,这些资源由于许多因素不容易被用户轻易地发掘,然而这些隐蔽信息在数量和质量上都优于普通的网络资源,所以对它们的发掘研究变得越来越重要。通用搜索引擎由于受到爬行深度的限制不可能全面地抓取这些信息,并且许多网站都设置了访问权限,一般爬虫(Crawler)被禁止访问;通用搜索引擎的页面解析也不能适应各具特色的网页形式的要求。相对于通用搜索引擎,具备特殊功能的垂直搜索引擎在挖掘隐蔽信息方面却能取得较好的效果。垂直搜索引擎采用针对资源特点的定制抓取策略和解析方法,能提取出精度非常高的网络信息,对于用户来讲,通过它可以在某一领域查询到经过精心筛选的信息。论文研究了搜索引擎的相关技术。通过分析研究聚焦爬虫的各种爬行策略,提出了基于树型网络结构的国外军事论坛网站资源的网络爬虫方法。通常论坛在网络分布上严格符合树型网络结构,可以针对性地加入爬行链路选择机制,使爬虫只抓取存有信息的贴子网页。在信息分类方面,论坛贴子内容含有大量的无用信息(回贴、恶意发贴),而这些无用信息通过统计发现,含有两个通常的特点:字数少、段落少。本文针对这一特点,提出了基于模糊模式识别的信息分类方法,将贴子信息的字数和段落数提取出来做为影响因子,采用样本分析法确定其影响度和权重,根据S型函数形态计算出分类隶属函数公式,有效地提高了分类的质量。在索引与检索方面,研究了垂直搜索引擎常用的索引软件Lucene的索引方法,提出了针对用户查询的结果缓存方法,通过OSCache进行了实现,大大提高了检索的响应速度。通过对搜索引擎的整体研究,使用Java建立了一个包含Military.com论坛的部分信息的军事资料搜索引擎,并将前面的研究结果进行了实现。最后研究了分布式搜索引擎的各种系统结构及运行机制,提出了基于分布式元搜索引擎系统的分布式垂直搜索引擎的系统框架,并提出了基于CORBA模式的分布式实现方法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 课题研究背景
  • 1.2 Web搜索引擎研究综述
  • 1.2.1 搜索引擎研究现状
  • 1.2.2 垂直搜索引擎研究现状
  • 1.3 课题设计思路及论文安排
  • 第二章 垂直搜索引擎工作原理和相关技术
  • 2.1 垂直搜索引擎的体系结构
  • 2.2 信息搜集
  • 2.2.1 Crawler基本原理
  • 2.2.2 深度优先和广度优先
  • 2.2.3 不重复抓取策略
  • 2.2.4 网络爬虫Heritrix
  • 2.3 信息提取及索引
  • 2.3.1 页面解析原理
  • 2.3.2 倒排索引技术
  • 2.4 信息检索
  • 2.4.1 信息检索中的查询技术
  • 2.4.2 信息检索中的排序技术
  • 2.5 本章小结
  • 第三章 基于聚焦爬虫原理的垂直搜索引擎信息搜集方法
  • 3.1 聚焦爬虫基本概念
  • 3.1.1 聚焦爬虫的原理
  • 3.1.2 聚焦爬虫的结构
  • 3.2 基于树形超链结构的论坛聚焦爬虫方法
  • 3.2.1 主题页面的分布特征
  • 3.2.2 论坛树形网络结构
  • 3.2.3 基于树形超链结构的Heritrix爬虫实现
  • 3.2.4 利用爬虫程序抓取外国军事论坛
  • 3.2.5 Heritrix爬虫程序多任务扩展
  • 3.3 模板式网页信息提取
  • 3.3.1 HTMLParser页面提取技术
  • 3.3.2 页面解析
  • 3.3.3 信息提取
  • 3.4 基于模糊模式识别的信息分类方法
  • 3.4.1 模糊模式识别基本概念
  • 3.4.2 特征选择与样本类别统计
  • 3.4.3 最大隶属度原则下的因素权重估计
  • 3.4.4 基于S型隶属函数分类方法
  • 3.4.5 对贴子进行计算并分类
  • 3.5 本章小结
  • 第四章 垂直搜索引擎的信息索引及检索设计
  • 4.1 基于Lucene信息索引实现
  • 4.1.1 全文检索工具Lucene介绍
  • 4.1.2 运用Lucene建立论坛贴子文件索引
  • 4.1.3 Lucene索引的分布式应用及扩展性
  • 4.2 论坛信息的数据库存储
  • 4.3 基于用户查询的信息检索实现
  • 4.3.1 基于用户查询的索引缓存方法
  • 4.3.2 构建用户搜索
  • 4.4 本章小结
  • 第五章 分布式垂直搜索引擎系统设计
  • 5.1 分布式搜索引擎基本技术
  • 5.1.1 分布式基本原理
  • 5.1.2 大型通用搜索引擎的分布式系统框架
  • 5.2 基于分布式元搜索引擎的分布式垂直搜索引擎系统设计
  • 5.2.1 分布式垂直搜索引擎系统框架
  • 5.2.2 分布式爬虫方法
  • 5.2.3 数据同步备份和索引合并方法
  • 5.2.4 负载均衡方法
  • 5.3 分布式垂直搜索引擎用户接口单元方法
  • 5.3.1 CORBA运行机理
  • 5.3.2 基于CORBA方式的分布式用户检索方法
  • 5.4 分布式搜索引擎的扩展性分析
  • 5.5 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 附录A 扩展Extractor类的末网页判定
  • 附录B 链接过滤的扩展schedule()方法
  • 附录C Lucene建立索引Document()和IndexProcesser()方法
  • 附录D 数据库添加数据方法
  • 附录E OSCache缓存类
  • 相关论文文献

    标签:;  ;  ;  ;  

    可扩展分布式垂直搜索引擎设计与实现研究
    下载Doc文档

    猜你喜欢