面向主题的双约束网页采集方法的研究和实现

论文摘要

Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自动发现领域内的主要资源,进而研究主题信息的变化及其分布特征。由于主题信息一般只占整个Web很小的一部分,并且具有分散性,因此传统的基于宽度优先或深度优先的搜索策略在Web信息搜集的效率上难以达到期望的要求。面向主题的网页抓取系统的主要任务是利用有限的网络带宽、存储容量和较少的时间,抓取尽可能多的主题相关网页。本文首先对通用搜索引擎的工作原理作了简单介绍,进而对搜索引擎的一些关键技术如网络爬虫、信息抽取、文本分类、网页排序等进行了阐述。接下来介绍了主题搜索引擎的工作原理,并分析了其关键技术和研究热点。随后,研究了主题搜索技术中主题特征模型的构建与更新、主题网页识别两项关键技术。接下来,本文重点讨论了主题网络爬虫的抓取策略,分别论述了基于网页内容的启发式方法和基于Web超链结构的方法。综合考虑到效率和主题漂移等问题,提出了一种新的基于网页内容和Web超链结构的双约束网页采集方法,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后,在以上研究基础上,实现了一个主题搜索引擎原型系统。该系统不仅能够准确自动地爬行到主题相关的网页,而且还可以节约网络带宽,具有良好的稳定性。通过对比,验证了系统在查全率、查准率、主题满意度等评价指标上都达到了较高水平。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文内容及组织结构

第二章搜索引擎概述

2.1 通用搜索引擎

2.1.1 通用搜索引擎的工作原理

2.1.2 通用搜索引擎的分类

2.2 主题搜索引擎

2.2.1 主题搜索引擎的工作原理

2.2.2 主题搜索引擎的区别及优势

2.3 本章小结

第三章主题特征模型的研究

3.1 主题特征模型

3.1.1 文本表示模型

3.1.2 文本特征选取

3.1.3 主题分类

3.1.4 主题特征模型

3.1.5 主题特征模型的建立及更新

3.2 主题网页识别

3.2.1 主题网页模型

3.2.2 分类算法

3.2.3 主题网页识别算法

3.3 本章小结

第四章面向主题的网页采集方法的研究和实现

4.1 主题页面特征

4.1.1 Hub 特征

4.1.2 Linkage/Sibling Locality 特征

4.1.3 站点主题特征

4.1.4 Tunnel 特征

4.2 主题网络爬虫相关策略和算法

4.2.1 基于网页内容的启发式方法

4.2.2 基于Web 超链结构的方法

4.3 基于双约束的网页采集方法

4.4 本章小结

第五章实验及结果分析

5.1 性能评价指标

5.2 实验比较与分析

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

面向主题的双约束网页采集方法的研究和实现

论文摘要

论文目录

相关论文文献

猜你喜欢