主题网络爬虫的研究与设计

主题网络爬虫的研究与设计

论文摘要

随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQL SERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 概述
  • 1.1.1 Internet发展
  • 1.1.2 搜索引擎的发展
  • 1.2 国内外研究现状
  • 1.3 研究内容及本文组织
  • 2 主题爬虫体系结构
  • 2.1 基本流程和组成部分
  • 2.1.1 基本组成
  • 2.1.2 基本流程
  • 2.2 主题页面的分布特性
  • 2.2.1 Hub/Authority特性
  • 2.2.2 Linkage/Sibling Locality特性
  • 2.2.3 站点的主题特性
  • 2.2.4 隧道特性
  • 2.3 搜索策略以及链接提取
  • 2.3.1 robots协议和相对链接的转换
  • 2.3.2 搜索策略概述
  • 2.3.3 结合链接和内容因素的URL分值预测
  • 2.4 本章小结
  • 3 网页预处理
  • 3.1 文本分词
  • 3.2 HTML简介
  • 3.3 网页文件解析
  • 3.4 网页消噪
  • 3.4.1 相关工作和概念
  • 3.4.2 标签节点的过滤
  • 3.4.3 基于样式的消噪
  • 3.5 本章小结
  • 4 网页分类
  • 4.1 网页分类概述
  • 4.2 训练集和类目体系
  • 4.3 特征选择
  • 4.3.1 概述以及部分改进
  • 4.3.2 改进的特征选择
  • 4.4 权值计算
  • 4.4.1 TFIDF权值
  • 4.4.2 改进的权值公式
  • 4.5 分类算法概述
  • 4.6 本章小结
  • 5 爬虫系统设计
  • 5.1 实现条件和流程详述
  • 5.2 数据表格和存储过程定义
  • 5.2.1 数据表格定义
  • 5.2.2 存储过程和触发器的定义
  • 5.3 程序界面
  • 5.4 程序运行结果以及分析
  • 5.5 本章小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    主题网络爬虫的研究与设计
    下载Doc文档

    猜你喜欢