面向主题的双约束网页采集方法的研究和实现

面向主题的双约束网页采集方法的研究和实现

论文摘要

Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自动发现领域内的主要资源,进而研究主题信息的变化及其分布特征。由于主题信息一般只占整个Web很小的一部分,并且具有分散性,因此传统的基于宽度优先或深度优先的搜索策略在Web信息搜集的效率上难以达到期望的要求。面向主题的网页抓取系统的主要任务是利用有限的网络带宽、存储容量和较少的时间,抓取尽可能多的主题相关网页。本文首先对通用搜索引擎的工作原理作了简单介绍,进而对搜索引擎的一些关键技术如网络爬虫、信息抽取、文本分类、网页排序等进行了阐述。接下来介绍了主题搜索引擎的工作原理,并分析了其关键技术和研究热点。随后,研究了主题搜索技术中主题特征模型的构建与更新、主题网页识别两项关键技术。接下来,本文重点讨论了主题网络爬虫的抓取策略,分别论述了基于网页内容的启发式方法和基于Web超链结构的方法。综合考虑到效率和主题漂移等问题,提出了一种新的基于网页内容和Web超链结构的双约束网页采集方法,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后,在以上研究基础上,实现了一个主题搜索引擎原型系统。该系统不仅能够准确自动地爬行到主题相关的网页,而且还可以节约网络带宽,具有良好的稳定性。通过对比,验证了系统在查全率、查准率、主题满意度等评价指标上都达到了较高水平。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文内容及组织结构
  • 第二章 搜索引擎概述
  • 2.1 通用搜索引擎
  • 2.1.1 通用搜索引擎的工作原理
  • 2.1.2 通用搜索引擎的分类
  • 2.2 主题搜索引擎
  • 2.2.1 主题搜索引擎的工作原理
  • 2.2.2 主题搜索引擎的区别及优势
  • 2.3 本章小结
  • 第三章 主题特征模型的研究
  • 3.1 主题特征模型
  • 3.1.1 文本表示模型
  • 3.1.2 文本特征选取
  • 3.1.3 主题分类
  • 3.1.4 主题特征模型
  • 3.1.5 主题特征模型的建立及更新
  • 3.2 主题网页识别
  • 3.2.1 主题网页模型
  • 3.2.2 分类算法
  • 3.2.3 主题网页识别算法
  • 3.3 本章小结
  • 第四章 面向主题的网页采集方法的研究和实现
  • 4.1 主题页面特征
  • 4.1.1 Hub 特征
  • 4.1.2 Linkage/Sibling Locality 特征
  • 4.1.3 站点主题特征
  • 4.1.4 Tunnel 特征
  • 4.2 主题网络爬虫相关策略和算法
  • 4.2.1 基于网页内容的启发式方法
  • 4.2.2 基于Web 超链结构的方法
  • 4.3 基于双约束的网页采集方法
  • 4.4 本章小结
  • 第五章 实验及结果分析
  • 5.1 性能评价指标
  • 5.2 实验比较与分析
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    标签:;  ;  ;  

    面向主题的双约束网页采集方法的研究和实现
    下载Doc文档

    猜你喜欢