主题网络爬虫的研究与设计

论文摘要

随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:（1）在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。（2）网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。（3）网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。（4）最后,在VC6.0和SQL SERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。

论文目录

摘要

Abstract

1 绪论

1.1 概述

1.1.1 Internet发展

1.1.2 搜索引擎的发展

1.2 国内外研究现状

1.3 研究内容及本文组织

2 主题爬虫体系结构

2.1 基本流程和组成部分

2.1.1 基本组成

2.1.2 基本流程

2.2 主题页面的分布特性

2.2.1 Hub/Authority特性

2.2.2 Linkage/Sibling Locality特性

2.2.3 站点的主题特性

2.2.4 隧道特性

2.3 搜索策略以及链接提取

2.3.1 robots协议和相对链接的转换

2.3.2 搜索策略概述

2.3.3 结合链接和内容因素的URL分值预测

2.4 本章小结

3 网页预处理

3.1 文本分词

3.2 HTML简介

3.3 网页文件解析

3.4 网页消噪

3.4.1 相关工作和概念

3.4.2 标签节点的过滤

3.4.3 基于样式的消噪

3.5 本章小结

4 网页分类

4.1 网页分类概述

4.2 训练集和类目体系

4.3 特征选择

4.3.1 概述以及部分改进

4.3.2 改进的特征选择

4.4 权值计算

4.4.1 TFIDF权值

4.4.2 改进的权值公式

4.5 分类算法概述

4.6 本章小结

5 爬虫系统设计

5.1 实现条件和流程详述

5.2 数据表格和存储过程定义

5.2.1 数据表格定义

5.2.2 存储过程和触发器的定义

5.3 程序界面

5.4 程序运行结果以及分析

5.5 本章小结

6 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

主题网络爬虫的研究与设计

论文摘要

论文目录

相关论文文献

猜你喜欢